Yahoo crawle presque trop

Discussion sur les autres moteurs de recherche ...

Modérateur: Modérateurs

Yahoo crawle presque trop

Messagede falkra » Mar Mai 08, 2007 3:59 pm

Bonjour,

petit énervement contre yahoo, cet animal crawle le forum avec jusqu'à 20 bots (dans qui est online de l'ACP). On reconnait les IP 74.6.*.* et comme ce ne sont pas les mêmes (google obéit gentiment au réglage de sessions.php), il est difficile de le modérer.

J'ai placé un Crawl Delay depuis longtemps dans robots.txt, mais il n'a pas l'air de le suivre plus que ça, pas plus que les disallow, d'ailleurs puisqu'il visite obstinément posting.php, par exemple.

Y'a-t-il un vaccin ou calmant pour l'animal ? :lol:
Parce qu'avec Google & Yahoo en même temps, ça commence à sérieusement ramer.

Je n'ai rien trouvé de probant sur... google. :lol:
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Publicité

Messagede dcz » Mer Mai 09, 2007 9:23 am

C'est le problème principale de yahoo, il crawl vraiment massivement, et comme tu le soulignes, en utilisant de nombreuses IP créant autant de sessions.

Heureusement, le mod guest sessions de cyber alien nous assure déjà de ne pas maintenir plus d'une session par ip pour les invités, mais effectivement, rien que yahoo, ça peut ajouter de la charge.

Par contre, si ton serveur as déjà du mal, je pense qu'il est temps d'envisager d'en changer, parce que d'une, à par bannir les rangées d'ip de yahoo, et c'est pas forcément le but, il n'y a pas grand chose à faire, et de toutes façons, c'est quand même pas lui qui doit t'apporter la majorité des visites ( le bot, pas les résultats de recherches).

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21428
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede falkra » Mer Mai 09, 2007 9:32 am

Merci pour cette réponse, ça me met sur une piste. On vient de passer en dédié, et le reste du site ne devrait pas pomper autant (portail j'ai suroptimisé la partie SQL + cache, le blog j'ai ajouté un cache maison aussi et tout ce qui est inutilisé a été impitoyablement supprimé).

Par contre j'ai bien installé le mod guest sessions pour retirer le SID dans le cadre du rewriting, mais j'ai plusieurs sessions par ip, je peux régler le chiffre.

J'avais été amené à ajouter ceci avant d'installer le rewriting, c'est au dessus du paragraphe
//
// Regenerate the auto-login key
//


Avant

$sql = "INSERT INTO " . SESSIONS_TABLE . "
(session_id, session_user_id, session_start, session_time, session_ip, session_page, session_logged_in, session_admin)
VALUES ('$session_id', $user_id, $current_time, $current_time, '$user_ip', $page_id, $login, $admin)";
if ( !$db->sql_query($sql) )


dans sessions.php paragraphe create or update a session

// rajout MOD
$sql = "SELECT COUNT(*) as numrows FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip'";
$result = $db->sql_query($sql);
if ( !$result )
{
message_die(CRITICAL_ERROR, 'Error checking existing sessions', '', __LINE__, __FILE__, $sql);
}

$numrows = $db->sql_fetchrow($result);
if($numrows['numrows'] > 4) // réglage ici
{
$delete_limit = $numrows['numrows'] - 4;
switch( SQL_LAYER )
{
case 'mysql4':
$sql = "DELETE FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip' ORDER BY session_start ASC LIMIT $delete_limit";
break;
default:
$sql = "SELECT session_start FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip' ORDER BY session_start DESC LIMIT 4";
$result = $db->sql_query($sql);

if ( !$db->sql_query($sql) )
{
message_die(CRITICAL_ERROR, 'Error select session data', '', __LINE__, __FILE__, $sql);
}

$session_rows = $db->sql_fetchrowset($result);

$sql = "DELETE FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip' AND session_start < ".$session_rows[3]['session_start'];
}

if ( !$db->sql_query($sql) )
{
message_die(CRITICAL_ERROR, 'Error deleting old sessions', '', __LINE__, __FILE__, $sql);
}
}
//fin rajout MOD



C'est du vieux code, pour limiter les sessions, ça date on avait des problèmes de table de sessions pleine. Ca doit faire double emploi, voire parasiter le mod guest sessions. J'avais commenté le fichier, je peux le retirer, il n'y avait que ça à ajouter. Je retire ?
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede dcz » Mer Mai 09, 2007 9:44 am

A priori ces deux mod n'entrent pas en conflit. Mais limiter le nombre de session en dessous de la moyenne généralement constatée peu augmenter la charge serveur, car cela augment la re-création de session, avec des écriture SQL (les plus gourmandes).

Limiter les tables de session en nombre de sessions est intéressant pour ne pas aller au delà des limites du serveur, mais celle ci doit evidemment être supérieur (le plus possible) au nombre de session généralement constaté.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21428
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede falkra » Mer Mai 09, 2007 9:48 am

Ok, je vais tout de même faire des essais sans ce rajout, car c'est du vieux code ajouté bien avant, et il n'y avait pas eu de modifs autres dans mon souvenir, juste ça à ajouter.

Backups backups... :lol:

Je n'avais pas pensé que MySQL était forcé de recréer des sessions par la suite, ça vient certainement de là.

Par contre le Guest Sessions joue déjà sur ces paramètres, comme tu le dis plus haut : une session par IP. Or le code que j'avais ajouté permet en jouant sur le chiffre de choisir, donc ça me semble être un mini-conflit, ou une charge bien inutile.

Je vais tester avec et sans, pour voir.
Un grand merci. :D

Edit, j'avais aussi augmenté la taille de la table de sessions (à la main).
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede dcz » Mer Mai 09, 2007 9:53 am

Bah non, limiter les session en nombre revient juste à effacer les plus vielles, faire un suivit par ip des sessions des invités, et donc des bots, va juste faire en sorte que phpBB n'utilise qu'une session par ip d'invité.

Les deux ne jouent pas de la même façon, et je doute qu'il puisse y avoir de conflit, par contre, une valeur limite trop faible peut effectivement augmenter la charge serveur, indépendamment du mod guest session (avec ou sans, même si avec tu aura moins de sessions).

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21428
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede falkra » Mer Mai 09, 2007 9:57 am

Petit test rapide : sans le code ajouté que j'ai signalé, google fait une vingtaine de sessions (qui est online) sur la même IP.
J'ai faut quelque part dans Guest Sessions alors ?
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede dcz » Jeu Mai 10, 2007 8:34 am

Je vois toujours pas comment ces deux code pourraient entrer en conflit, par contre, je viens de remarquer :

Code: Tout sélectionner
if($numrows['numrows'] > 4) // réglage ici


Limiter les table à seulement 4 sessions simultanées, c'est vraiment léger, et ça devait faire bien ramer ton serveur.

Vérifies l'installation du mod guest sessions du coup.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21428
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede falkra » Jeu Mai 10, 2007 7:42 pm

C'est un de ces mods que j'ai inclus (paragraphe Limiting the number of sessions per IP).
http://www.phpbb.com/community/viewtopic.php?t=66998

Il n'y avait que cette ligne à modifier (même sie le reste indique 4) pour changer le nombre de sessions. Mais en le retirant, je me retrouve avec google sur 8-9 lignes de "who is online" (= sessions, right ?), sur la même IP, bien sûr.
Or le duplicate ne réduit pas cela naturellement à un ? (si je te relis plus haut).
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede falkra » Ven Mai 11, 2007 2:39 pm

J'ai téléchargé le dernier phpBB, j'ai extrait sessions.php

J'ai appliqué le mod guest sessions 0.4 de Cyber Alien
Puis le mod rewrite avancé
Puis le zero duplicate

Ce fichier tourne actuellement... wait and see.

Edit : bien plus réactif, plus rapide. J'avais dû laisser des choses en trop.
L'escouade des googlebots arrive, plusieurs lignes dans who is online sur la même IP, au moins 2 actuellement... normal avec le zero dupes ?
Yahoo à 20 exemplaires parfois, mais ça ne ramerait plus, ce qui est déjà ultra cool.


30 googlebots sur la même IP dans qui est online... normal désormais ???
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede dcz » Ven Mai 11, 2007 4:37 pm

On est en train de changer de sujet, mais c'est bizarre, j'ai jamais observé ce phénomène avec guest sessions, j'ai peut être pas assez prêter attention.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21428
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede falkra » Ven Mai 11, 2007 4:40 pm

Tu me diras, côté bots, mais là j'ai eu des passages à 30 googlebots, sans ramer donc c'est bien. De chez moi, tout est plus réactif.

Je peux renommer le titre du topic. :wink:

Une fois de plus, merci pour tout le temps que tu passes sur le forum à nous répondre. :D :D
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede falkra » Jeu Mai 24, 2007 2:15 pm

Des nouvelles plus fraîches : le nombre de visiteurs côté forum public ne correspond pas au qui est en ligne du côté de l'ACP, ce doit être cela dont tu parlais Dcz, je pense.

Actuellement ~40 sur qui est en ligne (côté public), et 90-100 côté ACP (sur les 5 dernière minutes), dont 70 google bots (même IP, un par ligne). Ceci dit, aucun ralentissement perceptible, tout va vite et bien.

Ce décalage de chiffres doit être induit par guest sessions ou le zero dupe, il ne les ocmpte plus séparément je pense (yahoo aussi est là en même temps, même traitement).

En tout cas tout baigne. :D
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Messagede ibost » Jeu Juil 05, 2007 8:31 am

:shock: Je ne savais pas que le "crawling" des bots sur les sites pouvait prendre de la charge sur le serveur ! :shock:
ibost
PR6
PR6
 
Messages: 733
Inscription: Dim Avr 15, 2007 7:15 pm

Messagede falkra » Jeu Juil 05, 2007 8:46 am

Ce sont des visiteurs très actifs, ils sollicitent les pages et le serveur doit leur transmettre aussi. :D
www.libellules.ch
Helpers, modos, CanRemember stocke vos posts et procédures en BBcode.
Avatar de l’utilisateur
falkra
PR3
PR3
 
Messages: 373
Inscription: Dim Mar 11, 2007 12:11 am

Suivante

Retourner vers Autres Moteurs de Recherche

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité