VoilaBot, trop actif

GoogleBot, MSNBot, Yahoo!Slurp ... Tout sur les robots d'indexations, liste d'ip, User Agents, Crawl et les robots.txt.

Modérateur: Modérateurs


VoilaBot, trop actif

Messagede falkra » Mer Fév 13, 2008 9:56 pm

Bonjour à tous,

ce petit post pour signaler l'activité du robot du moteur de recherche voila.fr, le voilabot. Ce robot est peut-être à l'origine de surcharges du forum, et ne figure pas dans la liste des robots de la premod (on peut l'ajouter).

Je le signale car sur webrankinfo cette discussion a attiré mon attention :
http://www.webrankinfo.com/forums/viewtopic_79535.htm on signale un crawl féroce de ce robot, et je constate la même chose sur un blog et notre forum.

Voici les 4 IP que j'ai relevées :
81.52.143.15
81.52.143.16
193.252.149.15
193.252.149.16

:arrow: Est-ce que l'ajouter manuellement au groupe des robots modifiera sa façon de se connecter ? Dans le doute, j'ai blacklisté les IP pour avoir la paix et souffler un peu, évidemment c'est temporaire.
www.libellules.ch
Un petit combat dans l'arène ? http://falkra.labrute.fr
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 331
Inscription: Dim Mar 11, 2007 12:11 am

Publicité

Messagede SeO » Mer Fév 13, 2008 10:58 pm

metropoway a écrit:3 I.P différentes et simultanées


Yahoo est monté à 63 IP sur phpBB SEO en juin dernier :mrgreen:

Le vrai problème semble donc avoir été ailleurs :

Voila.fr a écrit:VoilaBot crée des urls relatives n'existant pas
Ceci etait un bug (une fonction de ré-écriture des URL absolues) et a été corrigé.


Le réveil de voilà donc, plutôt une bonne chose, on verra à l'usage.

Et donc oui, si dans phpBB3 tu l'ajoute (met l'ua en plus de ip, il doit y avoir d'autres ip) à la liste des robots, voilabot tombera sous le coup des autorisations des bots. Plus souple qu'un deny d'ip.
SeO
Admin
Admin
 
Messages: 6033
Inscription: Mer Mar 15, 2006 9:41 pm

Messagede falkra » Mer Fév 13, 2008 11:09 pm

Bonsoir SeO, :D

C'est vrai que Yahoo c'est son habitude, il s'éparpille énormément. :lol:
Je me souviens de juin dernier, c'était... spécial effectivement.

Les 3-4 IP en même temps, pas de problème, je vais l'ajouter à la liste des robots, parce que là il était franchement calamiteux côté charge du forum. après le deny, la charge a été diminuée de 50% dans mes jolis graphiques. :lol:

L'ua, je rentre juste voilabot ? (j'ai regardé pour les autres, on dirait que oui). J'ai mis ça + les 4 IP séparées par des virgules, dans un premier temps. Je vais creuser pour voir si je trouve des plages d'ip répertoriées.

Ca va suffire à le calmer ? Je veux dire dans le groupe robots il y a un facteur limitant ? (en charge, en dehors des nombreux liens en trop retirés, entre autres paramètres)

Je demande parce qu'il est déjà revenu... :lol:

Récolte d'IP :
81.52.143.16
81.52.143.15
193.252.149.16
193.252.149.15
81.52.142.145
81.52.143.17
81.52.143.18
194.117.246.22
194.117.246.21
194.117.246.20
source

Périmés ? Les DNS sont natcrawlbloc (sans k) plus que ceux que l'on voit là :
195.101.94.101
195.101.94.209
195.101.94.208
source

195.101.94.***
source

Il peut y en avoir d'autres... arf.
www.libellules.ch
Un petit combat dans l'arène ? http://falkra.labrute.fr
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 331
Inscription: Dim Mar 11, 2007 12:11 am

Messagede falkra » Jeu Fév 14, 2008 9:30 am

J'ai compris le système, l'UA suffit dans la plupart des cas, sans les IP, ce que j'ai listé plus haut n'est pas forcément nécessaire. Les dernières, en dehors des 4 actives du premier post, doivent être inutilisées.

Très beau système en tout cas, cette gestion des robots ! Image
J'ai ajouté aussi Twiceler, mais il n'est pas agressif.

Si l'info est disponible, comment ça fonctionne exactement ? C'est une limitation du nombre de sessions simultanées ? Ca l'a calmé en tout cas, c'est parfait.
www.libellules.ch
Un petit combat dans l'arène ? http://falkra.labrute.fr
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 331
Inscription: Dim Mar 11, 2007 12:11 am

Messagede SeO » Jeu Fév 14, 2008 10:55 am

En effet, l'ua suffit dans la mesure ou tu ne cloak pas et que tu ne cherches pas à ouvrir des forum privés aux bots ou a leur interdire l'accès à des forums publics. Je dis ça parce qu'une restriction d'accès basée sur l'ua ne vaut vraiment pas grand chose.

l'UA est très facilement utilisable par n'importe qui, donc, un forum privé auquel un bot seulement défini par l'ua aurait accès pourrait facilement être visité par n'importe qui.

Autre souci possible, les bots eux même pourrait utiliser de temps a autre un ua et / des ip différentes pour vérifier qu'il n'y a pas cloaking, c'est ce qui rend la gestion des bots un peu sensible sur phpBB3, car même de retirer des liens inutile que les invités de base verraient, c'est techniquement du cloaking.

Donc, en pratique je ne pense pas qu'il aura des blacklistage pour si peu, mais tout est possible, ce type de léger cloaking pourrait devenir une fausse raison pour un vrai blackilstage, il n'y a vraiment aucune garantie en la matière.

Le pire si on poursuit le raisonnement, c'est que ça n'aura en plus servit à rien pour le référencement ... car c'est pas les trois liens en moins qui vont faire bondir nos pages dans les moteurs de recherches, même si ça va dans le bon sens.

Le seul intérêt réel de la gestion des bots est, à mon sens, de faire du vrai cloaking (quitte à tricher autant que ça serve) ou d'ouvrir des forums privés au bots, avec tout ce que ça comporte comme risque de voir des utilisateurs sans droits réussir à en voir le contenu (si seul l'ua est pris en compte) tout en ayant aucune réel certitude quant à la façon dont les bots apprécieraient de se voir ouvrir un accès que les invités n'auraient pas, techniquement, c'est aussi du cloaking.

Ce qui fait que dans tous les cas, je déconseille, à défaut de plus garanties, d'utiliser le groupe des bots sur phpBB3 pour autre chose que de faire joli dans la liste des connectés. Idéalement, il faudrait leur donner les mêmes droits qu'aux invités, ni plus ni moins.

Il y a heureusement un autre avantage au groupe des bots, si tu ne l'utilise que pour faire joli, c'est que les bots utiliseront chacun une unique session et pas de SId dans les liens, ce qui peut vraiment faire du bien quand yahoo pète un câble et qui pour le coup n'est pas une prise de risque.
SeO
Admin
Admin
 
Messages: 6033
Inscription: Mer Mar 15, 2006 9:41 pm

Messagede falkra » Jeu Fév 14, 2008 8:33 pm

Re, SeO. La fonction qui m'intéresse est la limitation à une session unique, ça, c'est très utile, même si perfectible, pour ajuster la charge sur les serveurs, on y pense trop peu.
Il est clair qu'un filtrage par UA est à oublier d'urgence, la moindre extension (ou même sans) ou plugin ou autre permet de le modifier de toute façon. Aucune protection ne devrait se baser sur l'UA. :)

Si google prend ça pour du cloaking, on verra bien, après tous certains forums ont aussi une fonction affichage pour bas débit, limitée, qui pourrait en faire les frais selon ce que l'on décide d'appeler cloaking (urls différentes par contre).

La liste ne fait pas si joli je trouve, mais je ne trouve pas de moyen de les rendre tous invisibles sans modifier le code ou changer leur profil un par un (long). Ceci dit, c'est cosmétique. :lol:

Merci pour ces précisions, surtout celle de la limitation de session, c'est exactement ce que je voulais savoir. :D
www.libellules.ch
Un petit combat dans l'arène ? http://falkra.labrute.fr
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 331
Inscription: Dim Mar 11, 2007 12:11 am

Messagede SeO » Ven Fév 15, 2008 2:49 pm

falkra a écrit:Si google prend ça pour du cloaking, on verra bien, après tous certains forums ont aussi une fonction affichage pour bas débit, limitée, qui pourrait en faire les frais selon ce que l'on décide d'appeler cloaking (urls différentes par contre).


Présenter une version bas débit ou une langue différente en fonction de différents critères (ip principalement) n'est pas à proprement parler du cloaking, il y a bien modification du site en fonction de l'utilisateur, mais pas de différenciation particulière pour les bots.

Google s'est exprimé à ce sujet, en disant qu'il n'y avait aucune raison qu'ils blacklistent un site qui, comme php.net, adapte la langue du site, et donc le contenu en fonction de l'ip des visiteurs. Ils conseillent juste de ne rien faire de particulier pour les bots Google.

Une version bas débit se rapproche plus de ce cas que de celui de la gestion des bots de phpBB3. Les liens profils peuvent par exemple n'être retiré que pour les bots et pas les invités, et là, c'est techniquement du cloaking. Il n'y a pas de garanties vis à vis de Google, même si c'est du cloaking "anecdotique" et qu'il y a à priori peut de chance de finir blacklisté.

Une prise de risque inutile à mes yeux, autant prendre comme unique critère le fait d'être ou non enregistré pour présenter des pages plus légères aux invités et donc aux bots ou utiliser des nofollow pour les liens que l'on souhaite exclure. Il n'y a pratiquement aucun bénéfices à faire du cloaking "anecdotique", et une prise de risque non nulle de tout perdre donc ...
SeO
Admin
Admin
 
Messages: 6033
Inscription: Mer Mar 15, 2006 9:41 pm

Messagede No-Mad » Sam Mar 08, 2008 10:08 am

bonjour,

qui peut m'expliquer l'UA svp ?
dans le cas de Voila Bot, comment dois-je ajouter ce robot a la liste sans devoir mettre plusieurs IP ?

Merci pour vos conseils
No-Mad
PR0
PR0
 
Messages: 81
Inscription: Mar Mar 04, 2008 6:51 pm

Messagede dcz » Mer Mar 12, 2008 2:22 pm

L'ua, c'est l'user agent, le nom du client en gros, que ce soit un bot ou un explorateur. C'est une donnée très peut fiable vu qu'on peut vraiment mettre ce qu'on veut.

Dans le cas de la détection des bots pour faire joli, l'ua suffit, les bots des moteurs de recherche trichent rarement avec, sauf justement pour détecter les tricheurs ;)

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 19930
Inscription: Ven Avr 28, 2006 9:03 pm


Retourner vers Les roBots

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité