| |
|
| :: |
| Auteur |
Message |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Mar Mai 08, 2007 3:59 pm Sujet du message: Yahoo crawle presque trop |
|
|
Bonjour,
petit énervement contre yahoo, cet animal crawle le forum avec jusqu'à 20 bots (dans qui est online de l'ACP). On reconnait les IP 74.6.*.* et comme ce ne sont pas les mêmes (google obéit gentiment au réglage de sessions.php), il est difficile de le modérer.
J'ai placé un Crawl Delay depuis longtemps dans robots.txt, mais il n'a pas l'air de le suivre plus que ça, pas plus que les disallow, d'ailleurs puisqu'il visite obstinément posting.php, par exemple.
Y'a-t-il un vaccin ou calmant pour l'animal ?
Parce qu'avec Google & Yahoo en même temps, ça commence à sérieusement ramer.
Je n'ai rien trouvé de probant sur... google.  |
|
|
| Revenir en haut de page |
|
 |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
Posté le: Mer Mai 09, 2007 9:23 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
C'est le problème principale de yahoo, il crawl vraiment massivement, et comme tu le soulignes, en utilisant de nombreuses IP créant autant de sessions.
Heureusement, le mod guest sessions de cyber alien nous assure déjà de ne pas maintenir plus d'une session par ip pour les invités, mais effectivement, rien que yahoo, ça peut ajouter de la charge.
Par contre, si ton serveur as déjà du mal, je pense qu'il est temps d'envisager d'en changer, parce que d'une, à par bannir les rangées d'ip de yahoo, et c'est pas forcément le but, il n'y a pas grand chose à faire, et de toutes façons, c'est quand même pas lui qui doit t'apporter la majorité des visites ( le bot, pas les résultats de recherches).
++ |
_________________ Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________
Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche |
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Mer Mai 09, 2007 9:32 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
Merci pour cette réponse, ça me met sur une piste. On vient de passer en dédié, et le reste du site ne devrait pas pomper autant (portail j'ai suroptimisé la partie SQL + cache, le blog j'ai ajouté un cache maison aussi et tout ce qui est inutilisé a été impitoyablement supprimé).
Par contre j'ai bien installé le mod guest sessions pour retirer le SID dans le cadre du rewriting, mais j'ai plusieurs sessions par ip, je peux régler le chiffre.
J'avais été amené à ajouter ceci avant d'installer le rewriting, c'est au dessus du paragraphe
| Citation: | //
// Regenerate the auto-login key
// |
Avant
| Citation: | $sql = "INSERT INTO " . SESSIONS_TABLE . "
(session_id, session_user_id, session_start, session_time, session_ip, session_page, session_logged_in, session_admin)
VALUES ('$session_id', $user_id, $current_time, $current_time, '$user_ip', $page_id, $login, $admin)";
if ( !$db->sql_query($sql) ) |
dans sessions.php paragraphe create or update a session
| Citation: | // rajout MOD
$sql = "SELECT COUNT(*) as numrows FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip'";
$result = $db->sql_query($sql);
if ( !$result )
{
message_die(CRITICAL_ERROR, 'Error checking existing sessions', '', __LINE__, __FILE__, $sql);
}
$numrows = $db->sql_fetchrow($result);
if($numrows['numrows'] > 4) // réglage ici
{
$delete_limit = $numrows['numrows'] - 4;
switch( SQL_LAYER )
{
case 'mysql4':
$sql = "DELETE FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip' ORDER BY session_start ASC LIMIT $delete_limit";
break;
default:
$sql = "SELECT session_start FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip' ORDER BY session_start DESC LIMIT 4";
$result = $db->sql_query($sql);
if ( !$db->sql_query($sql) )
{
message_die(CRITICAL_ERROR, 'Error select session data', '', __LINE__, __FILE__, $sql);
}
$session_rows = $db->sql_fetchrowset($result);
$sql = "DELETE FROM ". SESSIONS_TABLE ." WHERE session_ip = '$user_ip' AND session_start < ".$session_rows[3]['session_start'];
}
if ( !$db->sql_query($sql) )
{
message_die(CRITICAL_ERROR, 'Error deleting old sessions', '', __LINE__, __FILE__, $sql);
}
}
//fin rajout MOD |
C'est du vieux code, pour limiter les sessions, ça date on avait des problèmes de table de sessions pleine. Ca doit faire double emploi, voire parasiter le mod guest sessions. J'avais commenté le fichier, je peux le retirer, il n'y avait que ça à ajouter. Je retire ? |
|
|
| Revenir en haut de page |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
Posté le: Mer Mai 09, 2007 9:44 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
A priori ces deux mod n'entrent pas en conflit. Mais limiter le nombre de session en dessous de la moyenne généralement constatée peu augmenter la charge serveur, car cela augment la re-création de session, avec des écriture SQL (les plus gourmandes).
Limiter les tables de session en nombre de sessions est intéressant pour ne pas aller au delà des limites du serveur, mais celle ci doit evidemment être supérieur (le plus possible) au nombre de session généralement constaté.
++ |
_________________ Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________
Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche |
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Mer Mai 09, 2007 9:48 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
Ok, je vais tout de même faire des essais sans ce rajout, car c'est du vieux code ajouté bien avant, et il n'y avait pas eu de modifs autres dans mon souvenir, juste ça à ajouter.
Backups backups...
Je n'avais pas pensé que MySQL était forcé de recréer des sessions par la suite, ça vient certainement de là.
Par contre le Guest Sessions joue déjà sur ces paramètres, comme tu le dis plus haut : une session par IP. Or le code que j'avais ajouté permet en jouant sur le chiffre de choisir, donc ça me semble être un mini-conflit, ou une charge bien inutile.
Je vais tester avec et sans, pour voir.
Un grand merci.
Edit, j'avais aussi augmenté la taille de la table de sessions (à la main). |
|
|
| Revenir en haut de page |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
Posté le: Mer Mai 09, 2007 9:53 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
Bah non, limiter les session en nombre revient juste à effacer les plus vielles, faire un suivit par ip des sessions des invités, et donc des bots, va juste faire en sorte que phpBB n'utilise qu'une session par ip d'invité.
Les deux ne jouent pas de la même façon, et je doute qu'il puisse y avoir de conflit, par contre, une valeur limite trop faible peut effectivement augmenter la charge serveur, indépendamment du mod guest session (avec ou sans, même si avec tu aura moins de sessions).
++ |
_________________ Useful links :
SEO Forum || SEO Directory || SEO phpBB || SEO phpBB3 || Search
____________________
Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Référencement phpBB3 || Recherche |
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Mer Mai 09, 2007 9:57 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
Petit test rapide : sans le code ajouté que j'ai signalé, google fait une vingtaine de sessions (qui est online) sur la même IP.
J'ai faut quelque part dans Guest Sessions alors ? |
|
|
| Revenir en haut de page |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Jeu Mai 10, 2007 7:42 pm Sujet du message: Re: Yahoo crawle presque trop |
|
|
C'est un de ces mods que j'ai inclus (paragraphe Limiting the number of sessions per IP).
http://www.phpbb.com/community/viewtopic.php?t=66998
Il n'y avait que cette ligne à modifier (même sie le reste indique 4) pour changer le nombre de sessions. Mais en le retirant, je me retrouve avec google sur 8-9 lignes de "who is online" (= sessions, right ?), sur la même IP, bien sûr.
Or le duplicate ne réduit pas cela naturellement à un ? (si je te relis plus haut). |
|
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Ven Mai 11, 2007 2:39 pm Sujet du message: Re: Yahoo crawle presque trop |
|
|
J'ai téléchargé le dernier phpBB, j'ai extrait sessions.php
J'ai appliqué le mod guest sessions 0.4 de Cyber Alien
Puis le mod rewrite avancé
Puis le zero duplicate
Ce fichier tourne actuellement... wait and see.
Edit : bien plus réactif, plus rapide. J'avais dû laisser des choses en trop.
L'escouade des googlebots arrive, plusieurs lignes dans who is online sur la même IP, au moins 2 actuellement... normal avec le zero dupes ?
Yahoo à 20 exemplaires parfois, mais ça ne ramerait plus, ce qui est déjà ultra cool.
30 googlebots sur la même IP dans qui est online... normal désormais ??? |
|
|
| Revenir en haut de page |
|
 |
dcz Administrateur - Site Admin

Inscrit le: 28 Avr 2006 Messages: 13354
|
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Ven Mai 11, 2007 4:40 pm Sujet du message: Re: Yahoo crawle presque trop |
|
|
Tu me diras, côté bots, mais là j'ai eu des passages à 30 googlebots, sans ramer donc c'est bien. De chez moi, tout est plus réactif.
Je peux renommer le titre du topic.
Une fois de plus, merci pour tout le temps que tu passes sur le forum à nous répondre.  |
|
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Jeu Mai 24, 2007 2:15 pm Sujet du message: Re: Yahoo crawle presque trop |
|
|
Des nouvelles plus fraîches : le nombre de visiteurs côté forum public ne correspond pas au qui est en ligne du côté de l'ACP, ce doit être cela dont tu parlais Dcz, je pense.
Actuellement ~40 sur qui est en ligne (côté public), et 90-100 côté ACP (sur les 5 dernière minutes), dont 70 google bots (même IP, un par ligne). Ceci dit, aucun ralentissement perceptible, tout va vite et bien.
Ce décalage de chiffres doit être induit par guest sessions ou le zero dupe, il ne les ocmpte plus séparément je pense (yahoo aussi est là en même temps, même traitement).
En tout cas tout baigne.  |
|
|
| Revenir en haut de page |
|
 |
ibost PR4


Inscrit le: 15 Avr 2007 Messages: 489
|
|
| Revenir en haut de page |
|
 |
falkra PR1


Inscrit le: 11 Mar 2007 Messages: 156
|
Posté le: Jeu Juil 05, 2007 8:46 am Sujet du message: Re: Yahoo crawle presque trop |
|
|
Ce sont des visiteurs très actifs, ils sollicitent les pages et le serveur doit leur transmettre aussi.  |
_________________
 |
|
| Revenir en haut de page |
|
 |
|
|
| Navigation |
Autres sujets de discussion |
|
|
|
|
|
|
|