Le bot de Yahoo devient fou

Forums spécifiques au moteur de recherche Yahoo, Référencement, Marketing Tools, Small Business, Services, utilisation ...

Modérateur: Modérateurs

Le bot de Yahoo devient fou

Messagede doudou » Dim Déc 03, 2006 3:29 am

+http://www.....org/index.php?option=com_content&task=blogcategory&id=12&Itemid=18
72.30.215.22 wj500047.inktomisearch.com
+http://www.sonink...org/index.php?option=com_extcalendar&extmode=day&date=2006-08-24
72.30.215.103 wj500026.inktomisearch.com
+http://www.sonink....org/index.php?option=com_extcalendar&extmode=week&date=2006-10-07
72.30.215.16 wj500041.inktomisearch.com
+http://www.sonink....org/index.php?option=com_joomap&Itemid=65


Dans mon robotstats, je vois que yahoo (un bot paresseux) visite 5 à 10 pages/j de mon site. Seulement, je vois qu'il crée de toutes pièces des liens qui n'ont jamais existé sur e site ?

Le domaine http://www.soninkara.org/ est le bon mais la suite est une extension d'url d'un CMS Joomla que je n'ai jamais utilisé...index.php?option=com_content&task=blogcategory&id=12&Itemid=18
Yahoo prend mon domaine et ajoute une extension...
C'est fort non ?

Lol, c'est precher le faux pour connaître le vrai ?
Dernière édition par doudou le Mar Déc 05, 2006 1:45 pm, édité 2 fois.
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Publicité

Messagede dcz » Dim Déc 03, 2006 11:44 am

Vérifies bien quand même, car si le bot Yahoo! aime bien tester des 404 pour voir comment réagit le serveur, il le fait pas avec des URL aussi précises.

Je l'ai souvent vu tester des turc plus proche de l'aléatoire, et parfois de façon insistante.

On pourrait imaginer qu'il se mette à tester des URL en suivant des structure existantes, comme tester différentes dates dans un calendrier, mais je doute qu'il puisse trouver des URLs tout seul, sans les avoir vu sur un site.

Je pencherais plutôt pour l'explication simple : ces liens ont été, même brièvement, en ligne, et Yahoo! les a vu, même il y a longtemps.

Ce qui est plus problématique dans ce cas, c'est que ces URLs sont des duplicates de -http://www.soninkara.org/index.php

Donc, il faut au minimum ajouter :

Code: Tout sélectionner
Disallow : /index.php?


Dans ton robots.txt, si toutefois, tu n'as pas de vrai pages en index.php?bla=bli sur ton Joomla.

Si non, il faudrait modifier la source pour faire une redirection HTTP 301 conditionnelle, à la manière du zéro dupe (ce que Joomla ne semble d'ailleurs pas faire pour son mod rewrite).

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede doudou » Dim Déc 03, 2006 12:53 pm

Je t'assure, je n'ai jamais installé Joomla sur mon site, mais jamais.
Déjà que je ne suis pas trop fan des CMS. Par contre un site concurrent au mien possède joomla et mon site est soninkara.org et l'autre est un .com
Meme cela ça n'a rien à voir avec mon site. Ici, je suis sur à 100% que Yahoo les a créés de toute pieces ou il a confondu les deux sites.
Je suis formel la dessus, yahoo n'a jamais vu du Joomla sur mon site :D
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Messagede dcz » Dim Déc 03, 2006 3:26 pm

Intéressant.
C'est quoi ton portail du coup ? Du home made ?

Et le .com utilise bien le module calendrier : -http://www.soninkara.com/index.php?option=com_extcalendar&extmode=day&date=2006-08-24

C'est étonnant, mais cela semble bien vouloir dire que Yahoo! a essayé des URLs du .com sur ton .org.

Comme quoi la confusion crée par une telle proximité de projet et domaines peut aussi toucher les bots.

Je dis confusion, c'est pas méchant. Mais je crois que même si le sujet est très proche, ton intérêt est de trouver le plus de moyens possibles de te démarquer de l'autre.

Pour le forum, avec des URLs comme -http://www.soninkara.com/component/option,com_smf/Itemid,6/ ça va pas être trop difficile, mais pour le portail et les article, il faut trouver.
Pour le coup c'est de la "concurrence" au corps à corps, il faut voir catégorie par catégorie : intitulé, url, organisation et articles. En ayant finement observé ce qui constitue pour toi un terrain d'expérience de choix : le .com.
A toi de voir ce qui aurait pu être mieux fait ou différemment, voir simplement ajouté pour te démarquer au mieux ;)

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede doudou » Dim Déc 03, 2006 4:19 pm

Et le .com utilise bien le module calendrier : --http://www.soninkara..../index.php?option=com_extcalendar&extmode=day&date=2006-08-24

Oui sur ce site là mes concurrents utilisent le CMS Joomla même si ils ont viré le copyright :D
Moi je n'utilise pas de CMS, le site c'est du fait maison car pour moi, les CMS ne sont pas assez souples pour ce que je veux faire et en plus ça emprisonne et je n'aime pas cela.
Pour le forum, avec des URLs comme -
http://www.soninkara..../component/option,com_smf/Itemid,6/ ça va pas être trop difficile, mais pour le portail et les article, il faut trouver.

Pour le forum, il n'y a pas photo, mes urls (merci phpbb SEO) sont plus beaux, mais pour les articles, moi j'utilise Cutenews en version payante et je n'arrive pas URLrewriter les liens comme
-http://www.soninkara.org/index.php?subaction=showfull&id=1165117850&archive=&start_from=&ucat=1,2&
Et il faut reconnaire que nos liens n'ont rien à voir quand à la structure...
C'est étonnant, mais cela semble bien vouloir dire que Yahoo! a essayé des URLs du .com sur ton .org.
Comme quoi la confusion crée par une telle proximité de projet et domaines peut aussi toucher les bots.

Moi je trouve que ce n'est pas normal de tester une url de mon site .org sur celui d'un autre en .com ou .net
Cela crée la confusion car je suis persuadé que le robot n'y vois que du feu car l'url que j'ai vu sur robotstats ne donne pas une erreur 404, mais la page d'accueiil de mon site :!: :!: :!: :!: :!: :!:
Dernière édition par doudou le Mar Jan 16, 2007 2:18 pm, édité 1 fois.
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Messagede dcz » Dim Déc 03, 2006 4:38 pm

C'est pour cela que :

dcz a écrit:Donc, il faut au minimum ajouter :

Code: Tout sélectionner
Disallow : /index.php?


Dans ton robots.txt


Peut être utile.

Pour la confusion, je doute que cela aille plus loin que ce type d'erreurs. Au pire voir une page ou deux du .com sur le .org et vice versa. Et encore, ça reste à vérifier, mais je pense pas qu'il y en aura beaucoup.

L'url que tu cites est assez longue, et avec pas mal de paramètres, peut être que cela joue aussi.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede doudou » Dim Déc 03, 2006 4:57 pm

Mais si je fais:
Code: Tout sélectionner
Disallow : /index.php?

Les urls de mes news Cutenews qui sont de cette forme:
+http://www.sonink...org/index.php?subaction=showfull&id=1165117850&archive=&start_from=&ucat=1,2&
ne seront plus indéxés :!: :!:
Non ?
Pour Yahoo qui m'emmene une dizaine de viteurs sur 500 par jour, heureusement. Je trouve que ce n'est pas sérieux pour un bot de creer des urls de toute pieces.
Cela peut me porter préjudice avec les erreurs 400 que cela entraineraient ou le duplicate en ce qui me concerne. Tous ces urls créés pointent vers ma home.
Dernière édition par doudou le Mar Déc 05, 2006 1:46 pm, édité 1 fois.
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Messagede dcz » Dim Déc 03, 2006 5:18 pm

ahh oui, c'est vrai, le CMS et ces superbes URLs.

Et bien, tant qu'il n'y en pas pas trop ...
Autrement, faudrait changer ces URL un peut complexes, c'est vraiment pas top.

Sur du payant, le problème, c'est qu'on ne peut pas compter sur des communautés GPL pour faires des modules, si le propriétaire ne s'en occupe pas ... On va quand même pas bosser gratos pour lui ;)

Après, ça dépend, il se peut que ce soit pas trop compliqué à faire, mais la structure de base est pas de plus simples, il faudrait tout de même bien appréhender le script.
A terme il faudrait mieux faire quelque chose je pense.
++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede dcz » Lun Déc 04, 2006 8:28 am

Bon pour cutenews, on en parle désormais ;)
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede doudou » Mar Déc 05, 2006 2:00 pm

Salut je veux juste savoir un truc:
Quelqu(un peut essayer de polluer mon site en ecrivant ailleurs des urls non existantes afin que les bots croient à ses urls et viennent sur mon site en les testant ?
Car le debut correspond bien à mes urls de site mais la fin est une url Joomla que je n'ai jamais utilisé.

Je pose cette question car j'ai vu que Google a essayé une cianquantaire de fois des urls de ce genre avec des id de mes articles, j'ai vu sur mon Robotstats:
+http://www.sonink....org/index.php?subaction=showfull&id=1165074060&archive=&start_from=&ucat=1&option=com_joomap&Itemid=65
+http://www.sonink....org/index.php?subaction=showfull&id=1165074060&archive=&start_from=&ucat=1&option=com_joomap&Itemid=65
+http://www.sonink....org/index.php?subaction=showfull&id=1164994562&archive=&start_from=&ucat=1&option=com_joomap&Itemid=65
Et aussi Google a visité un lien:
http://www.sonink....org/noexist_aed541869b396ba1.html

Ca me deconcerte tout ceci et je me demande comment les bots ont trouvé ces urls...
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Messagede dcz » Mar Déc 05, 2006 3:04 pm

Si Google s'y met aussi, c'est étonnant en effet. Un peut trop pour une coïncidence.

Faudrait voir quels sont les référent pour ces URLs dans tes logs serveurs, tu retrouvera peut être la page d'où tout cela est parti.

En tous cas, c'est en effet un phénomène à observer.

Il faudrait aussi rediriger toutes ces URLs pour éviter les duplicates (dans un nouveaux sujet dans le forum Techniques de référencement je précise ;) ).

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede doudou » Mar Déc 05, 2006 3:07 pm

Ok, merci dès que je rentre, je jeterai un coup d'oeil...
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Messagede doudou » Dim Déc 10, 2006 12:00 pm

En regardant mon robotstats j'ai vu que Google visitait des liens de ce type:
Code: Tout sélectionner
+http://www.soninkara.org/annuaire///cat_add.php?cat=60
+http://www.soninkara.org/annuaire///index.php?cat=18
+ttp://www.soninkara.org/annuaire///item_add.php?cat=60
+http://www.soninkara.org/annuaire//achat-vente-dvd--film-dvd-pas-cher--263.html
ou un lien comme ceci:
+http://www.soninkara.org/forum/a-lire-avant-de-poster-sur-soninkara-forum-vf27.html?mark=topics
etc...
Et je me demande également où les bots trouvent ces urls abracadabrantesques. Comment GG ajoutent ces doubles ou triples slashs ?

Voici mon robots.txt
Code: Tout sélectionner
Disallow: /images/
Disallow: /inc/
Disallow: /visite/
Disallow: /erreurs/
Disallow: /admin/
Disallow: /moteur/
Disallow: /forum/viewtopic.php
Disallow: /forum/viewforum.php
Disallow: /forum/index.php?
Disallow: /forum/posting.php
Disallow: /forum/groupcp.php
Disallow: /forum/search.php
Disallow: /forum/login.php
Disallow: /forum/post
Disallow: /forum/profile.php
Disallow: /forum/privmsg.php
Disallow: /annuaire/cat_add.php?
Disallow: /annuaire/item_add.php?
Disallow: /annuaire/user_login.php
Disallow: /annuaire/index.php?
Disallow: /news/print.php?
Disallow: /news/rss.php
Disallow: /index.php?subaction
Disallow: /index.php?start_from
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Messagede dcz » Dim Déc 10, 2006 4:02 pm

Pour les 4 premiers, difficile de se prononcer . A priori, il les a vu sur ton site à un moment ou a un autre, mais avec ce qu'il t'as déjà fait ... Va savoir.

Pour les doubles slash, c'est bizarre, et le truc, c'est qu'ils sont ajoutés au lien relatif de cette page par exemple -http://www.soninkara.org/annuaire///cat_add.php?cat=60

Du coup, les bots visitant cette page voient d'autres liens de ce type.

Je pense qu'une rewriterule pourrait nous aider, un truc comme :
Code: Tout sélectionner
RewriteRule ^annuaire/.*[^/]*/$ /annuaire/  [R=301,QSA,L]


0 la fin des rewriterules de celui ci le ferait bien pour rediriger toute URL avec plus d'un slash après annuaire/. Attention en l'état, cela interdit tout accès à des sous dossier d'annuaire/.

Pour le ?mark=topics dans la dernière URL, c'est vrai que ce serait mieux de ne même pas la réécrire celle là, pour pouvoir l'interdire par robots.txt.

Je vais ajouter ça au redirections du zéro duplicates ;)

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21411
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede doudou » Dim Déc 10, 2006 6:52 pm

Pour les 4 premiers liens, je ne sais pas comment les bots les ont "vu", vu que les liens de l'annuaire sont réécrits. Voici le htaccess qui est à la racine de mon site
Code: Tout sélectionner
#Options FollowSymLinks
RewriteEngine on
RewriteBase /

RewriteRule ^annuaire/([^,.]*),([0-9]+)(,([0-9]*))*\.html /annuaire/index.php?cat=$2&p=$4 [L]
RewriteRule ^annuaire/([0-9]+)-in*\.html$ /annuaire/in.php?id=$1 [QSA,L]
RewriteRule ^annuaire/rss/([^-.]+)-([^-.]+)-([^.]+).xml$ /annuaire/rss/index.php?flux=$1&cat=$2&name=$3 [QSA,L]
RewriteRule ^annuaire/([^,.]*)-([0-9]+)*\.html$ /annuaire/p_display.php?id=$2 [QSA,L]
RewriteRule ^annuaire/top_([A-Z]+)*\.html$ /annuaire/classement.php?mod=$1 [QSA,L]

J'ai ajaouté le rewriterule que tu m'as proposé et on verra si les doubles slashs vont disparaitre. Ce codesert à éliminer les doubles slashs ?
Code: Tout sélectionner
RewriteRule ^annuaire/.*[^/]*/$ /annuaire/  [R=301,QSA,L]

Et je tiens à préciser que je possède un plan sitemap pour l'annuaire qui est soumis dans mon plan google.
http://www.soninkara.org/annuaire/sitemap.xml
doudou
phpBB SEO Team
phpBB SEO Team
 
Messages: 340
Inscription: Dim Sep 17, 2006 6:26 pm
Localisation: Dans son Coeur...

Suivante

Retourner vers Forums Yahoo!

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités