Index
Forums
Annuaire
Référencement
Télécharger
  phpBB SEO : Référencement Google, MSN, Yahoo, Annuaires, Forums  
phpBB SEO
Boards
Directory  
SEO  
Downloads
 
  Rechercher Search
    S'enregistrer
Pseudo :  Passe :  Auto  
Register  
 
   
Mon robots.txt n'est pas respecté par les robots

 
Poster un nouveau sujet   Répondre au sujet    phpBB SEO » Forum Référencement  » Les roBots
::  
Auteur Message
Marie
PR1
PR1


Inscrit le: 27 Juin 2006
Messages: 139

Mon robots.txt n'est pas respecté par les robotsPosté le: Jeu Oct 12, 2006 6:34 am    Sujet du message: Mon robots.txt n'est pas respecté par les robots

Bonjour à tous

En consultant les pages référencées par Google, je me suis aperçue que certaines url étaient indéxées (mais non mises en cache) alors qu'elles sont interdites de crawl par le robots.txt. Shocked

Ces url sont de la forme: -http://www.micro-astuce.com/Forum/post9557.html ou encore
-http://www.micro-astuce.com/Forum/membre60.html



Pourtant, dans les statistiques de spyword, ces urls n'apparaissent pas comme ayant été crawlées.


Le phénomène est visible sur MSN et Google. Pas sur Yahoo.

Voici mon robots.txt:
Code:
User-agent: *
Disallow: /Forum/viewtopic.php
Disallow: /Forum/viewforum.php
Disallow: /Forum/index.php?
Disallow: /Forum/posting.php
Disallow: /Forum/groupcp.php
Disallow: /Forum/search.php
Disallow: /Forum/login.php
Disallow: /Forum/post
Disallow: /Forum/profile.php
Disallow: /Forum/memberlist.php
Disallow: /Forum/faq.php
Disallow: /Forum/ptopic
Disallow: /Forum/ntopic
Disallow: /Forum/newtopic
Disallow: /Forum/stopic
Disallow: /Forum/utopic
Disallow: /Forum/ftopic
Disallow: /Forum/setopic
Disallow: /Forum/sutra
Disallow: /Forum/viewforum
Disallow: /Forum/mforum
Disallow: /Forum/sutra
Disallow: /annuaires
Disallow: /Forum/membre
Disallow: /Forum/privmsg
Disallow: /Forum/portal.php?
Disallow: /Forum/topics_anywhere.php?
Disallow: /Forum/faq.php


Encore plus curieux...
Quand je teste ces urls dans Google sitemaps (analyse du robots.txt), elles sortent bien "bloquées".



(Et pourtant ces pages ont bien été indexées par Google hier. Avant, elles n'y étaient pas).

Une idée d'où ça peut venir?

Merci Very Happy
Revenir en haut de page
Visiter le site web de l'utilisateur
dcz
Administrateur - Site Admin
Administrateur - Site Admin


Inscrit le: 28 Avr 2006
Messages: 13354

Mon robots.txt n'est pas respecté par les robotsPosté le: Jeu Oct 12, 2006 1:04 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Marie a écrit:

Une idée d'où ça peut venir?


Rien de bien méchant, Google délire pendant la Google dance, il a ressortit des cache de page vielles de huit mois pour le site d'une membre il y a une semaine (j'avais déjà vu ça une fois). Donc je pense qu'il a simplement remis en liste des URL crawlée avant mis a jour de ton robots.txt, car si j'ai bien compris elles sont réapparues, et si je me rappelle bien, il y en avait déjà eût , non ?

En tous cas, c'est pas grave, elle sont pas en cache et devraient bientôt (re)-disparaître Wink

++

_________________
Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche
Revenir en haut de page
Visiter le site web de l'utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team


Inscrit le: 19 Juin 2006
Messages: 392
Localisation: Carcassonne(11)

Mon robots.txt n'est pas respecté par les robotsPosté le: Jeu Oct 12, 2006 5:33 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Salut dcz,

J'ai exactement la même chose que Marie, si tu dis que ce n'est pas gênant, je laisse faire, de toute façon il y a rien d'autre à faire je pense..

Wink

_________________
J.Cl.
Forum Clic! Nature
Revenir en haut de page
Visiter le site web de l'utilisateur
Marie
PR1
PR1


Inscrit le: 27 Juin 2006
Messages: 139

Mon robots.txt n'est pas respecté par les robotsPosté le: Jeu Oct 12, 2006 7:34 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Bonsoir à vous 2 Very Happy

Citation:
Donc je pense qu'il a simplement remis en liste des URL crawlée avant mis a jour de ton robots.txt, car si j'ai bien compris elles sont réapparues, et si je me rappelle bien, il y en avait déjà eût , non ?


Ben en fait, ces topics datent de la 2ème quinzaine de septembre. Et il n'y a pas eu de modification du robots.txt récemment.

On dirait qu'il pique ces url sur la page index du forum (dernier post d'un topic et le lien du profil du membre qui l'a posté).
J'ai même l'url d"un post appartenant à un topic d'un forum privé. Shocked

Mais comme tu dis, il vaut peut-être mieux attendre la fin de la Google dance et voir si tout rentre dans l'ordre à ce moment là.
Il m'a même mis un P.R de 2 sur la page Liste des membres. Shocked

Je vais donc attendre qu'il ait retrouvé ses esprits. Laughing
Revenir en haut de page
Visiter le site web de l'utilisateur
gowap
phpBB SEO Team
phpBB SEO Team


Inscrit le: 07 Mai 2006
Messages: 990

Mon robots.txt n'est pas respecté par les robotsPosté le: Jeu Oct 12, 2006 9:50 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Entre ca et des problemes "inverses " (urls soit disants bloquées par robots.txt cf http://forums.phpbb-seo.com/services-google/discussions-vt272.html ) Google nous en sort des bonnes tous les jours.

En ce moment j'ai un probleme d'urls en .html (alors que j'ai préféré .htm) et google balance de plus en plus d'urls innaccessibles a cause de cela. J'ignore ou il les choppe (avec proba faible il y a peut etre eut au début, il y a 12 jours, une sitemap avec des .html, mais je suis pas convaincu). Depuis j'ai vérifié le code en long et en large, je n'ai pas oublié de changer un .html en .htm , je continue de fouiller...

_________________
Gravure-News : la communauté francophone de la gravure de CD/DVD et son forum d'entraide.
Revenir en haut de page
Visiter le site web de l'utilisateur
dcz
Administrateur - Site Admin
Administrateur - Site Admin


Inscrit le: 28 Avr 2006
Messages: 13354

Mon robots.txt n'est pas respecté par les robotsPosté le: Ven Oct 13, 2006 9:58 am    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Si c'est sur ton plan Google sitemap les html, alors la probabilité est grande qu'il ait pris ces urls en compte. Par contre, si c'est des 404 et que ton plan est a jour, il devrait s'en remettre assez rapidement (on a pas retirer les autres URL ce faisant).

Va falloir que je borde encore un peut plus le zéro duplicate Very Happy

++

_________________
Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche
Revenir en haut de page
Visiter le site web de l'utilisateur
game252



Inscrit le: 01 Aoû 2006
Messages: 24

Mon robots.txt n'est pas respecté par les robotsPosté le: Ven Oct 13, 2006 5:52 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Hello,

le probleme pour les url bloque par un robot.txt n'est pas un probleme, en fait pour google le robot.txt dit qu'il ne faut pas crawle la page pas que c interdit de la reference.

C pour cela que c page apparaisse sans description et titre mais si google estime que la page est pertinente il la propose... (il se base sur l'url)

Voila la reponse, pour qu'un page ne soit pas reference du tout, je crois qu'il existe un truc NOINDEX mais je n'ai jamais utilise et ne sais pas comment ca fonctionne..

...
Revenir en haut de page
Visiter le site web de l'utilisateur
Marie
PR1
PR1


Inscrit le: 27 Juin 2006
Messages: 139

Mon robots.txt n'est pas respecté par les robotsPosté le: Sam Oct 14, 2006 10:32 am    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Citation:
je crois qu'il existe un truc NOINDEX mais je n'ai jamais utilise et ne sais pas comment ca fonctionne..


Ces pages postxxx.html ne gênent apparemment pas le référencement. Ce matin Google a indexé et mis en cache certains topics contenant ces postxxx.
Pas de duplicate....

Donc tout va bien. Very Happy

Merci. Wink
Revenir en haut de page
Visiter le site web de l'utilisateur
dcz
Administrateur - Site Admin
Administrateur - Site Admin


Inscrit le: 28 Avr 2006
Messages: 13354

Mon robots.txt n'est pas respecté par les robotsPosté le: Sam Oct 14, 2006 6:06 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Marie a écrit:
Ce matin Google a indexé et mis en cache certains topics contenant ces postxxx.
Pas de duplicate....


Tu veux dire des liens vers des posts se trouvant dans des sujets ?

_________________
Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche
Revenir en haut de page
Visiter le site web de l'utilisateur
Marie
PR1
PR1


Inscrit le: 27 Juin 2006
Messages: 139

Mon robots.txt n'est pas respecté par les robotsPosté le: Sam Oct 14, 2006 6:23 pm    Sujet du message: Re: Mon robots.txt n'est pas respecté par les robots

Non, il a indexé les topics qui contenaient ces posts.

Par exemple:
Il avait indexé sans mettre en cache l'URL -http://www.micro-astuce.com/Forum/post9729.html qui est le dernier post du topic -http://www.micro-astuce.com/Forum/topic986.html

Et ce matin, il a indexé et mis en cache l'URL -http://www.micro-astuce.com/Forum/topic986.html (Qui apparait en page 2 de la commande site:).
Revenir en haut de page
Visiter le site web de l'utilisateur
Montrer les messages depuis:   
Poster un nouveau sujet   Répondre au sujet    phpBB SEO » Forum Référencement  » Les roBots
Page 1 sur 1

Navigation Autres sujets de discussion

Sauter vers: