Mon robots.txt n'est pas respecté par les robots

GoogleBot, MSNBot, Yahoo!Slurp ... Tout sur les robots d'indexations, liste d'ip, User Agents, Crawl et les robots.txt.

Modérateur: Modérateurs

Mon robots.txt n'est pas respecté par les robots

Messagede Marie » Jeu Oct 12, 2006 6:34 am

Bonjour à tous

En consultant les pages référencées par Google, je me suis aperçue que certaines url étaient indéxées (mais non mises en cache) alors qu'elles sont interdites de crawl par le robots.txt. :shock:

Ces url sont de la forme: -http://www.micro-astuce.com/Forum/post9557.html ou encore
-http://www.micro-astuce.com/Forum/membre60.html

Image

Pourtant, dans les statistiques de spyword, ces urls n'apparaissent pas comme ayant été crawlées.
Image

Le phénomène est visible sur MSN et Google. Pas sur Yahoo.

Voici mon robots.txt:
Code: Tout sélectionner
User-agent: *
Disallow: /Forum/viewtopic.php
Disallow: /Forum/viewforum.php
Disallow: /Forum/index.php?
Disallow: /Forum/posting.php
Disallow: /Forum/groupcp.php
Disallow: /Forum/search.php
Disallow: /Forum/login.php
Disallow: /Forum/post
Disallow: /Forum/profile.php
Disallow: /Forum/memberlist.php
Disallow: /Forum/faq.php
Disallow: /Forum/ptopic
Disallow: /Forum/ntopic
Disallow: /Forum/newtopic
Disallow: /Forum/stopic
Disallow: /Forum/utopic
Disallow: /Forum/ftopic
Disallow: /Forum/setopic
Disallow: /Forum/sutra
Disallow: /Forum/viewforum
Disallow: /Forum/mforum
Disallow: /Forum/sutra
Disallow: /annuaires
Disallow: /Forum/membre
Disallow: /Forum/privmsg
Disallow: /Forum/portal.php?
Disallow: /Forum/topics_anywhere.php?
Disallow: /Forum/faq.php


Encore plus curieux...
Quand je teste ces urls dans Google sitemaps (analyse du robots.txt), elles sortent bien "bloquées".

Image

(Et pourtant ces pages ont bien été indexées par Google hier. Avant, elles n'y étaient pas).

Une idée d'où ça peut venir?

Merci :D
Avatar de l’utilisateur
Marie
PR1
PR1
 
Messages: 159
Inscription: Mar Juin 27, 2006 7:05 pm

Publicité

Re: Mon robots.txt n'est pas respecté par les robots

Messagede dcz » Jeu Oct 12, 2006 1:04 pm

Marie a écrit:Une idée d'où ça peut venir?


Rien de bien méchant, Google délire pendant la Google dance, il a ressortit des cache de page vielles de huit mois pour le site d'une membre il y a une semaine (j'avais déjà vu ça une fois). Donc je pense qu'il a simplement remis en liste des URL crawlée avant mis a jour de ton robots.txt, car si j'ai bien compris elles sont réapparues, et si je me rappelle bien, il y en avait déjà eût , non ?

En tous cas, c'est pas grave, elle sont pas en cache et devraient bientôt (re)-disparaître ;)

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede jcg11290 » Jeu Oct 12, 2006 5:33 pm

Salut dcz,

J'ai exactement la même chose que Marie, si tu dis que ce n'est pas gênant, je laisse faire, de toute façon il y a rien d'autre à faire je pense..

:wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 902
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede Marie » Jeu Oct 12, 2006 7:34 pm

Bonsoir à vous 2 :D

Donc je pense qu'il a simplement remis en liste des URL crawlée avant mis a jour de ton robots.txt, car si j'ai bien compris elles sont réapparues, et si je me rappelle bien, il y en avait déjà eût , non ?


Ben en fait, ces topics datent de la 2ème quinzaine de septembre. Et il n'y a pas eu de modification du robots.txt récemment.

On dirait qu'il pique ces url sur la page index du forum (dernier post d'un topic et le lien du profil du membre qui l'a posté).
J'ai même l'url d"un post appartenant à un topic d'un forum privé. :shock:

Mais comme tu dis, il vaut peut-être mieux attendre la fin de la Google dance et voir si tout rentre dans l'ordre à ce moment là.
Il m'a même mis un P.R de 2 sur la page Liste des membres. :shock:

Je vais donc attendre qu'il ait retrouvé ses esprits. :lol:
Avatar de l’utilisateur
Marie
PR1
PR1
 
Messages: 159
Inscription: Mar Juin 27, 2006 7:05 pm

Messagede gowap » Jeu Oct 12, 2006 9:50 pm

Entre ca et des problemes "inverses " (urls soit disants bloquées par robots.txt cf http://forums.phpbb-seo.com/services-go ... vt272.html ) Google nous en sort des bonnes tous les jours.

En ce moment j'ai un probleme d'urls en .html (alors que j'ai préféré .htm) et google balance de plus en plus d'urls innaccessibles a cause de cela. J'ignore ou il les choppe (avec proba faible il y a peut etre eut au début, il y a 12 jours, une sitemap avec des .html, mais je suis pas convaincu). Depuis j'ai vérifié le code en long et en large, je n'ai pas oublié de changer un .html en .htm , je continue de fouiller...
Gravure-News : la communauté francophone de la gravure de CD/DVD et son forum d'entraide.
Avatar de l’utilisateur
gowap
phpBB SEO Team
phpBB SEO Team
 
Messages: 1510
Inscription: Dim Mai 07, 2006 10:56 pm

Messagede dcz » Ven Oct 13, 2006 9:58 am

Si c'est sur ton plan Google sitemap les html, alors la probabilité est grande qu'il ait pris ces urls en compte. Par contre, si c'est des 404 et que ton plan est a jour, il devrait s'en remettre assez rapidement (on a pas retirer les autres URL ce faisant).

Va falloir que je borde encore un peut plus le zéro duplicate :D

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede game252 » Ven Oct 13, 2006 5:52 pm

Hello,

le probleme pour les url bloque par un robot.txt n'est pas un probleme, en fait pour google le robot.txt dit qu'il ne faut pas crawle la page pas que c interdit de la reference.

C pour cela que c page apparaisse sans description et titre mais si google estime que la page est pertinente il la propose... (il se base sur l'url)

Voila la reponse, pour qu'un page ne soit pas reference du tout, je crois qu'il existe un truc NOINDEX mais je n'ai jamais utilise et ne sais pas comment ca fonctionne..

...
game252
 
Messages: 24
Inscription: Mar Aoû 01, 2006 8:16 pm

Messagede Marie » Sam Oct 14, 2006 10:32 am

je crois qu'il existe un truc NOINDEX mais je n'ai jamais utilise et ne sais pas comment ca fonctionne..


Ces pages postxxx.html ne gênent apparemment pas le référencement. Ce matin Google a indexé et mis en cache certains topics contenant ces postxxx.
Pas de duplicate....

Donc tout va bien. :D

Merci. :wink:
Avatar de l’utilisateur
Marie
PR1
PR1
 
Messages: 159
Inscription: Mar Juin 27, 2006 7:05 pm

Messagede dcz » Sam Oct 14, 2006 6:06 pm

Marie a écrit:Ce matin Google a indexé et mis en cache certains topics contenant ces postxxx.
Pas de duplicate....


Tu veux dire des liens vers des posts se trouvant dans des sujets ?
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede Marie » Sam Oct 14, 2006 6:23 pm

Non, il a indexé les topics qui contenaient ces posts.

Par exemple:
Il avait indexé sans mettre en cache l'URL -http://www.micro-astuce.com/Forum/post9729.html qui est le dernier post du topic -http://www.micro-astuce.com/Forum/topic986.html

Et ce matin, il a indexé et mis en cache l'URL -http://www.micro-astuce.com/Forum/topic986.html (Qui apparait en page 2 de la commande site:).
Avatar de l’utilisateur
Marie
PR1
PR1
 
Messages: 159
Inscription: Mar Juin 27, 2006 7:05 pm


Retourner vers Les roBots

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités