| :: |
| Auteur |
Message |
Marie PR1


Inscrit le: 27 Juin 2006 Messages: 139
|
Posté le: Jeu Oct 12, 2006 6:34 am Sujet du message: Mon robots.txt n'est pas respecté par les robots |
|
|
Bonjour à tous
En consultant les pages référencées par Google, je me suis aperçue que certaines url étaient indéxées (mais non mises en cache) alors qu'elles sont interdites de crawl par le robots.txt.
Ces url sont de la forme: -http://www.micro-astuce.com/Forum/post9557.html ou encore
-http://www.micro-astuce.com/Forum/membre60.html
Pourtant, dans les statistiques de spyword, ces urls n'apparaissent pas comme ayant été crawlées.
Le phénomène est visible sur MSN et Google. Pas sur Yahoo.
Voici mon robots.txt:
| Code: | User-agent: *
Disallow: /Forum/viewtopic.php
Disallow: /Forum/viewforum.php
Disallow: /Forum/index.php?
Disallow: /Forum/posting.php
Disallow: /Forum/groupcp.php
Disallow: /Forum/search.php
Disallow: /Forum/login.php
Disallow: /Forum/post
Disallow: /Forum/profile.php
Disallow: /Forum/memberlist.php
Disallow: /Forum/faq.php
Disallow: /Forum/ptopic
Disallow: /Forum/ntopic
Disallow: /Forum/newtopic
Disallow: /Forum/stopic
Disallow: /Forum/utopic
Disallow: /Forum/ftopic
Disallow: /Forum/setopic
Disallow: /Forum/sutra
Disallow: /Forum/viewforum
Disallow: /Forum/mforum
Disallow: /Forum/sutra
Disallow: /annuaires
Disallow: /Forum/membre
Disallow: /Forum/privmsg
Disallow: /Forum/portal.php?
Disallow: /Forum/topics_anywhere.php?
Disallow: /Forum/faq.php |
Encore plus curieux...
Quand je teste ces urls dans Google sitemaps (analyse du robots.txt), elles sortent bien "bloquées".
(Et pourtant ces pages ont bien été indexées par Google hier. Avant, elles n'y étaient pas).
Une idée d'où ça peut venir?
Merci  |
|
|
| Revenir en haut de page |
|
 |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
Posté le: Jeu Oct 12, 2006 1:04 pm Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
| Marie a écrit: |
Une idée d'où ça peut venir?
|
Rien de bien méchant, Google délire pendant la Google dance, il a ressortit des cache de page vielles de huit mois pour le site d'une membre il y a une semaine (j'avais déjà vu ça une fois). Donc je pense qu'il a simplement remis en liste des URL crawlée avant mis a jour de ton robots.txt, car si j'ai bien compris elles sont réapparues, et si je me rappelle bien, il y en avait déjà eût , non ?
En tous cas, c'est pas grave, elle sont pas en cache et devraient bientôt (re)-disparaître
++ |
_________________ Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________
Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche |
|
| Revenir en haut de page |
|
 |
jcg11290 phpBB SEO Team


Inscrit le: 19 Juin 2006 Messages: 392 Localisation: Carcassonne(11)
|
Posté le: Jeu Oct 12, 2006 5:33 pm Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
Salut dcz,
J'ai exactement la même chose que Marie, si tu dis que ce n'est pas gênant, je laisse faire, de toute façon il y a rien d'autre à faire je pense..
 |
_________________ J.Cl.
Forum Clic! Nature |
|
| Revenir en haut de page |
|
 |
Marie PR1


Inscrit le: 27 Juin 2006 Messages: 139
|
Posté le: Jeu Oct 12, 2006 7:34 pm Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
Bonsoir à vous 2
| Citation: | | Donc je pense qu'il a simplement remis en liste des URL crawlée avant mis a jour de ton robots.txt, car si j'ai bien compris elles sont réapparues, et si je me rappelle bien, il y en avait déjà eût , non ? |
Ben en fait, ces topics datent de la 2ème quinzaine de septembre. Et il n'y a pas eu de modification du robots.txt récemment.
On dirait qu'il pique ces url sur la page index du forum (dernier post d'un topic et le lien du profil du membre qui l'a posté).
J'ai même l'url d"un post appartenant à un topic d'un forum privé.
Mais comme tu dis, il vaut peut-être mieux attendre la fin de la Google dance et voir si tout rentre dans l'ordre à ce moment là.
Il m'a même mis un P.R de 2 sur la page Liste des membres.
Je vais donc attendre qu'il ait retrouvé ses esprits.  |
|
|
| Revenir en haut de page |
|
 |
gowap phpBB SEO Team


Inscrit le: 07 Mai 2006 Messages: 990
|
Posté le: Jeu Oct 12, 2006 9:50 pm Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
Entre ca et des problemes "inverses " (urls soit disants bloquées par robots.txt cf http://forums.phpbb-seo.com/services-google/discussions-vt272.html ) Google nous en sort des bonnes tous les jours.
En ce moment j'ai un probleme d'urls en .html (alors que j'ai préféré .htm) et google balance de plus en plus d'urls innaccessibles a cause de cela. J'ignore ou il les choppe (avec proba faible il y a peut etre eut au début, il y a 12 jours, une sitemap avec des .html, mais je suis pas convaincu). Depuis j'ai vérifié le code en long et en large, je n'ai pas oublié de changer un .html en .htm , je continue de fouiller... |
_________________ Gravure-News : la communauté francophone de la gravure de CD/DVD et son forum d'entraide. |
|
| Revenir en haut de page |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
|
| Revenir en haut de page |
|
 |
game252
Inscrit le: 01 Aoû 2006 Messages: 24
|
Posté le: Ven Oct 13, 2006 5:52 pm Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
Hello,
le probleme pour les url bloque par un robot.txt n'est pas un probleme, en fait pour google le robot.txt dit qu'il ne faut pas crawle la page pas que c interdit de la reference.
C pour cela que c page apparaisse sans description et titre mais si google estime que la page est pertinente il la propose... (il se base sur l'url)
Voila la reponse, pour qu'un page ne soit pas reference du tout, je crois qu'il existe un truc NOINDEX mais je n'ai jamais utilise et ne sais pas comment ca fonctionne..
... |
|
|
| Revenir en haut de page |
|
 |
Marie PR1


Inscrit le: 27 Juin 2006 Messages: 139
|
Posté le: Sam Oct 14, 2006 10:32 am Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
| Citation: | | je crois qu'il existe un truc NOINDEX mais je n'ai jamais utilise et ne sais pas comment ca fonctionne.. |
Ces pages postxxx.html ne gênent apparemment pas le référencement. Ce matin Google a indexé et mis en cache certains topics contenant ces postxxx.
Pas de duplicate....
Donc tout va bien.
Merci.  |
|
|
| Revenir en haut de page |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
|
| Revenir en haut de page |
|
 |
Marie PR1


Inscrit le: 27 Juin 2006 Messages: 139
|
Posté le: Sam Oct 14, 2006 6:23 pm Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots |
|
|
Non, il a indexé les topics qui contenaient ces posts.
Par exemple:
Il avait indexé sans mettre en cache l'URL -http://www.micro-astuce.com/Forum/post9729.html qui est le dernier post du topic -http://www.micro-astuce.com/Forum/topic986.html
Et ce matin, il a indexé et mis en cache l'URL -http://www.micro-astuce.com/Forum/topic986.html (Qui apparait en page 2 de la commande site:). |
|
|
| Revenir en haut de page |
|
 |
|
|