Comment vérifier l'indexation des pages d'un Forum

Forum spécifiques au moteur de recherche Google, Référencement, PageRank, AdSense, AdWords, services, utilisation ...

Modérateur: Modérateurs

Comment vérifier l'indexation des pages d'un Forum

Messagede lemoussel » Ven Jan 02, 2009 2:02 pm

Bonjour,

GG explore régulièrement le fichier Sitemap de mon forum. J'ai donc un certain nombre de pages de mon Forum qui sont indexées.

Ce que j'essaye de faire, c'est de vérifier automatiquement que GG a bien référencé toutes les URL du Forum indiquées dans le fichier Sitemap.
Il existe la commande "site:" mais vu le nombre de liens la vérification ne peut se faire manuellement.
Je pensais faire un script php qui effectuerais le rapprochement entre les URL indiquées dans le fichier Sitemap et toutes les URL indexées par GG pour mon site.

Mais voilà mon souci, aucun Pb pour lire le fichier Sitemap par contre je ne vois pas comment faire pour récupérer en PHP tous les liens de mon site indexés par GG.

Merci de vos conseils.
Webmaster du forum L'itonScope. Le forum où l'on parle de tout et de rien !
Prévisions météo des départements de France .
Avatar de l’utilisateur
lemoussel
PR1
PR1
 
Messages: 113
Inscription: Ven Juil 18, 2008 6:42 am
Localisation: Haute-Normandie, Arnières sur Iton

Publicité

Messagede R1_Bzh » Ven Jan 02, 2009 2:57 pm

Tu récupère chaque pages de résultats google en parsant les liens à l'intérieur.

Code: Tout sélectionner
http://www.google.fr/search?hl=fr&q=site:www.mondomaine.com&start=10&sa=N


en faisant évoluer le paramètre start à chaque requête tu obtiendras les liensvers les pages indexés de ton site (start=10, start=20, start=30, ....)

Reste à parcourir le code source du fichier, récupérer les liens (balises A avec une class="l" (L et non 1)) et le comparer avec ton sitemap.
[ Phea ]: Développement PHP/MySQL/Ajax , hébergement de site & services mail et administration de serveur Unix
[ Coda-Cola ]: Solution de gestion de projets (subversion SVN / Redmine)
[ Rechercher ]
R1_Bzh
phpBB SEO Team
phpBB SEO Team
 
Messages: 214
Inscription: Mer Juil 04, 2007 3:29 pm
Localisation: Toulouse

Messagede lemoussel » Ven Jan 02, 2009 6:13 pm

En résumant :
1) Récupération avec CURL chaque page de résultats Google
2) Recherche des liens à l'intérieur de chaque page récupérée (<a href="http://www.monsite.com/" class=l>monsite.com</a>)

Mais comment connaître le nombre de pages indexées ? => Positionnement du parametre start max
Webmaster du forum L'itonScope. Le forum où l'on parle de tout et de rien !
Prévisions météo des départements de France .
Avatar de l’utilisateur
lemoussel
PR1
PR1
 
Messages: 113
Inscription: Ven Juil 18, 2008 6:42 am
Localisation: Haute-Normandie, Arnières sur Iton

Messagede R1_Bzh » Ven Jan 02, 2009 10:17 pm

tu as le résultat dans la page

Résultats 1 - 10 sur un total d'environ 903

Si tu veux réellement savoir lesquelles ne le sont pas, tu fais la comparaison, mais je ne suis pas sur que ce soit très utile :)
[ Phea ]: Développement PHP/MySQL/Ajax , hébergement de site & services mail et administration de serveur Unix
[ Coda-Cola ]: Solution de gestion de projets (subversion SVN / Redmine)
[ Rechercher ]
R1_Bzh
phpBB SEO Team
phpBB SEO Team
 
Messages: 214
Inscription: Mer Juil 04, 2007 3:29 pm
Localisation: Toulouse

Messagede lemoussel » Sam Jan 03, 2009 11:10 am

Mais si je procède de la sorte par un script automatisé, Google va t'il apprécié ?

Car j'ai cru comprendre que Google n'apprécie guère ce type requête automatisée => captcha sur @IP.

Pour éviter cela, il semblerait qu'il faut soit ne pas en abuser (pas facile), soit passer par un proxy (je ne sais pas comment faire) ou .... il semblerait qu'il existe d'autres techniques "secrètes" :?

Par exemple, j'ai entendu dire que pour éviter le ban de l’ip par Google, il suffit de remplacer ’search’ par ‘custom’. Intox ?
Webmaster du forum L'itonScope. Le forum où l'on parle de tout et de rien !
Prévisions météo des départements de France .
Avatar de l’utilisateur
lemoussel
PR1
PR1
 
Messages: 113
Inscription: Ven Juil 18, 2008 6:42 am
Localisation: Haute-Normandie, Arnières sur Iton

Messagede R1_Bzh » Sam Jan 03, 2009 12:12 pm

Tu n'a pas besoin de faire cela tous les jours, tu peux le faire une fois par semaine afin de voir si google continue son travail. Avec un rythme comme cela, tu a peu de chance de te faire bannir je pense.
[ Phea ]: Développement PHP/MySQL/Ajax , hébergement de site & services mail et administration de serveur Unix
[ Coda-Cola ]: Solution de gestion de projets (subversion SVN / Redmine)
[ Rechercher ]
R1_Bzh
phpBB SEO Team
phpBB SEO Team
 
Messages: 214
Inscription: Mer Juil 04, 2007 3:29 pm
Localisation: Toulouse

Messagede SeO » Dim Jan 04, 2009 10:36 am

C'est clair qu'il faut y aller mollo avec les requête automatique vers google. Déjà qu'en le faisant à la main, c'est pratiquement impossible de dépasser la page 10 des résultats sans tomber sur le super message "vous êtes un bot" :lol:

Pour l'url de recherche, il y a un autre paramètre intéressant, c'est num :
Code: Tout sélectionner
http://www.google.fr/search?hl=fr&q=site:www.mondomaine.com&num=100


Pour voir directement 100 résultats sur une page (c'est le max).

Mon conseil, ne pas tenter de récupérer tous les résultats en faisant des requêtes répétées sur toutes les pages, c'est le meilleur moyen de se faire bannir.
En plus on a rarement besoin de ça, et la variable num permet de faire des tests type mon site se trouve-t-il sur les 100 premières position des résultats sur cette requête, ce qui est déjà bien au delà de l'utile (on s'en moque un peu de savoir qu'on est après la 100ème place des résultats sur une requête).

Si tu veux vraiment savoir quelles sont les urls visités par les bots, installe plutôt un script qui track leur passage, comme crawltrack. Tu sauras exactement quelles pages sont visités et par plus de bots que simplement ceux de google ;)
SeO
Admin
Admin
 
Messages: 6334
Inscription: Mer Mar 15, 2006 9:41 pm


Retourner vers Forum Google

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 4 invités