En consultant les pages référencées par Google, je me suis aperçue que certaines url étaient indéxées (mais non mises en cache) alors qu'elles sont interdites de crawl par le robots.txt.
Ces url sont de la forme: -http://www.micro-astuce.com/Forum/post9557.html ou encore
-http://www.micro-astuce.com/Forum/membre60.html
Pourtant, dans les statistiques de spyword, ces urls n'apparaissent pas comme ayant été crawlées.
Le phénomène est visible sur MSN et Google. Pas sur Yahoo.
Voici mon robots.txt:
- Code: Tout sélectionner
User-agent: *
Disallow: /Forum/viewtopic.php
Disallow: /Forum/viewforum.php
Disallow: /Forum/index.php?
Disallow: /Forum/posting.php
Disallow: /Forum/groupcp.php
Disallow: /Forum/search.php
Disallow: /Forum/login.php
Disallow: /Forum/post
Disallow: /Forum/profile.php
Disallow: /Forum/memberlist.php
Disallow: /Forum/faq.php
Disallow: /Forum/ptopic
Disallow: /Forum/ntopic
Disallow: /Forum/newtopic
Disallow: /Forum/stopic
Disallow: /Forum/utopic
Disallow: /Forum/ftopic
Disallow: /Forum/setopic
Disallow: /Forum/sutra
Disallow: /Forum/viewforum
Disallow: /Forum/mforum
Disallow: /Forum/sutra
Disallow: /annuaires
Disallow: /Forum/membre
Disallow: /Forum/privmsg
Disallow: /Forum/portal.php?
Disallow: /Forum/topics_anywhere.php?
Disallow: /Forum/faq.php
Encore plus curieux...
Quand je teste ces urls dans Google sitemaps (analyse du robots.txt), elles sortent bien "bloquées".
(Et pourtant ces pages ont bien été indexées par Google hier. Avant, elles n'y étaient pas).
Une idée d'où ça peut venir?
Merci

Français |
Anglais


