Le plus gros Sitemap : Battez le Record ! [35 001 urls]

GYM Sitemaps & RSS pour phpBB, support, mise à disposition.
Sitemaps flux RSS 2.0 pour Google Yahoo! et MSN Live.

Modérateur: Modérateurs

Le plus gros Sitemap : Battez le Record ! [35 001 urls]

Messagede dcz » Ven Juil 18, 2008 3:56 pm

Bonjour a tous,

Je me suis toujours demandé combien d'urls le mod GYM sitemaps & RSS pourrait ajouter dans un unique sitemap.

J'ai bien entendu fait des tests en local avec jusqu'à 2396 urls de sujets dans un forum (gunzip off) :

Génération du cache :
Code: Tout sélectionner
<!-- URL list generated in  0.26343 s  - 13 sql - 2396 URLs listed -->
<!--  Output started from cache after 0.26768 s - 14 sql -->
<!--  Output from cache ended up after 0.48564 s - 14 sql -->


Sortie depuis le cache :
Code: Tout sélectionner
<!-- URL list generated in  0.26343 s  - 13 sql - 2396 URLs listed -->
<!--  Output started from cache after 0.00310 s - 2 sql -->
<!--  Output from cache ended up after 0.14326 s - 2 sql -->


0.268 est vraiment pas mal pour générer un fichier de 515ko mais 0.003 seconde est vraiment très très rapide pour un affichage depuis le cache.

Avec la version pour phpBB2, j'ai testé jusqu'à plus de 16 000 urls dans des temps de générations décents (comme ce n'était pas la même machine la comparaison n'as pas beaucoup d'intérêt, mais la mise en cache se faisait en moins de 10 secondes).

Donc, vu que je n'ai aucun forum avec 50 000 sujets (la limite du standard sitemap), et comme je suis une peu trop paresseux pour en faire un exprès pour le test, j'ai pensé qu'il serait plus amusant de lancer ce concours du plus gros sitemap.
La question est, qui sera le premier à atteindre 50 000 URLs dans un unique sitemap.

Pour participer, utilisez simplement le gabarit ci dessous pour poster dans ce sujet les détails de votre sitemap, le plus gros sitemap sera affiché dans le deuxième message :

Code: Tout sélectionner
[quote][b]Nom du site :[/b]
[b]URL :[/b]
[b]Date :[/b] jj/mm/aa
[b]Nombre total d'urls :[/b]
[b]Nombre de sujets du forum :[/b]
[b]URL du forum :[/b]
[b]URL du sitemap :[/b]
[b]Temps de génération :[/b]
[code] [/code]
[b]Temps de génération une fois en cache :[/b]
[code] [/code]
[b]Gunzip :[/b][/quote]


Le temps de génération se trouve tout en bas du code source xml du sitemap.

Pour le forum phpBB SEO, cela donnerait :

Site name : phpBB SEO Forum
URL : http://www.phpbb-seo.com/forums/
Date : 07/18/08
Nombre total d'urls : 481
Nombre de sujets du forum : 384
URL du forum : http://www.phpbb-seo.com/forums/le-forum-phpbb-vf28/
URL du sitemap : http://www.phpbb-seo.com/forums/le-forum-phpbb-gf28.xml
Temps de génération :
Code: Tout sélectionner
<!-- URL list generated in  0.04692 s  - 8 sql - 481 URLs listed -->
<!--  Output started from cache after 0.04769 s -  sql -->
<!--  Output from cache ended up after 0.04822 s -  sql -->

Temps de génération une fois en cache :
Code: Tout sélectionner
<!-- URL list generated in  0.04692 s  - 8 sql - 481 URLs listed -->
<!--  Output started from cache after 0.00205 s -  sql -->
<!--  Output from cache ended up after 0.00260 s -  sql -->

Gunzip : off


Comme vous pouvez le voir, chacun peut vérifier les résultats.

C'est parti pour voir jusqu'où GYM Sitemaps & RSS pourra nous mener ;)

Ce concours est également lancé dans le forum anglophone : Sujet anglophone.

++
Dernière édition par dcz le Dim Oct 26, 2008 1:39 pm, édité 3 fois.
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Publicité

Messagede dcz » Ven Juil 18, 2008 3:57 pm

Nouveau record 35 001 URLs :shock:

Nom du site : Dogs4Sale.net
URL : http://www.dogs4sale.net/
Date : 10/26/2008
Nombre total d'urls :569718
Nombre de sujets du forum :38455
URL du forum : http://www.dogs4sale.net/dallas-fort-worth-f29.html
URL du sitemap : http://www.Dogs4Sale.net/dallas-fort-worth-gf29.xml
Temps de génération :
Nous ne disposons pas du temps de génération avant mise en cache, mais le temps de génération (génération + envois) total peut tout de même être estimé à environ 19 + 9 = 28 secondes
Temps de génération une fois en cache :
Code: Tout sélectionner
<!-- URL list generated in  18.20959 s ( Mem Usage : 5.98 MB ) - 42 sql - 35001 URLs listed -->
<!--  Output started from cache after 0.00177 s -  sql -->
<!--  Output from cache ended up after 9.07569 s -  sql -->

Gunzip :off
Dernière édition par dcz le Dim Oct 26, 2008 9:46 am, édité 4 fois.
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede trefle » Ven Juil 18, 2008 5:36 pm

Nom du site : Forum lesarnaques.com
URL : http://forum.lesarnaques.com
Date : 19/07/08
Nombre total d'urls :10791( hier il était plus gros c'est vraiement aléatoire .. )
Nombre de sujets du forum :11516 ( je crois que j'attends les limites du sitemap puiqsue tous les sujets ne sont pas dans le sitemap )
URL du forum : http://forum.lesarnaques.com/articles-livraison-sav/
URL du sitemap : http://forum.lesarnaques.com/articles-n ... -f2.xml.gz
Temps de génération :
Code: Tout sélectionner
aucune idée

Temps de génération une fois en cache :
Code: Tout sélectionner
aucune idée

Gunzip :on

normalement la limite des urls est fixé à 9999 via le panneau d'admin.
c'est quand meme un très très gros forum d'ou ces chiffres. Forum qui d'ailleurs utilise beaucoup de vos mods. Merci encore pour tout ces mods.
Dernière édition par trefle le Ven Juil 18, 2008 11:30 pm, édité 1 fois.
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede SeO » Ven Juil 18, 2008 5:49 pm

Pour le temps de génération j'ai ça dans le code source xml du sitemap (tout en bas) :
Code: Tout sélectionner
<!-- URL list generated in  16.59942 s ( Mem Usage : 2.42 MB ) - 67 sql - 10049 URLs listed -->


Le cache n'a pas l'air activé, est-ce le cas ?

Si non, il vaut mieux le mettre, 16.5 secondes, c'est assez long. Avec le gunzip activé on a pas plus de stats, pour éviter d'alourdir le code, le fichier n'est pas décompressé / recompressé juste pour ajouter les dernier détails de stats.

En tous cas, pas mal, tu dois pouvoir y gagner en augmentant le nombre d'url par requêtes, dans les réglages des limites, avec 67 requêtes, tu dois être autour de 150 url par cycle, tu dois pouvoir gagner du temps en en récupérant plus à chaque fois.
L'idée, c'est de trouver le bon compromis entre nombre de cycles, nombre d'url, et taille de la requête.

En tous cas, 10 000 c'est déjà pas mal, à mon avis tu peux aller jusqu'au bout des 11515 sujet du forum et faire mieux en temps de génération, même si avec le cache, ça ne compte plus.

Pour le petit écart entre la limite de l'acp et le nombre d'url, c'est juste le reste de la fin du dernier cycle des requêtes.

;)
SeO
Admin
Admin
 
Messages: 6334
Inscription: Mer Mar 15, 2006 9:41 pm

Messagede trefle » Ven Juil 18, 2008 8:21 pm

Bonjour,

effectivement le cache n'etait pas activé je viens de le faire je suis déja passébeaucoup moins de temps mais il doit y avoir un truc qui ne marche pas au niveau du cache car je ne descend jamis en dessous de la seconde.

j'ai également effectué les réglages pour permettre plus d'url par sitemap.

( d'ailleurs il y aurait moyen de permettre de fixer une limite à 5 chiffres ou pas ? )

( mais de toute facon je le redescendrai dès que yahoo et msn commenceront à venir régulièrement ... ) surtout yahoo il vient mais n'indexe pas ......

je vais laisser passer la nuit le temps que tout se regénère et que dse post passent sur le forum.
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede dcz » Sam Juil 19, 2008 7:36 am

Ah bah :

Code: Tout sélectionner
<!-- URL list generated in  4.57756 s ( Mem Usage : 2.56 MB ) - 9 sql - 10791 URLs listed -->


C'est beaucoup mieux :D

Moins de 5 seconde pour construire une liste de 10791 urls, la compresser et la mettre en cache, c'est vraiment pas mal :D

Tu as de la marge du coup, et à mon avis il te manque juste 40 000 sujet pour sortir la limite des sitemaps en moins de 20 secondes :D

Pour la limite, à 5 chiffres tu parles de la limite des URLs totale ?
Si c'est ça, vide tout le contenu du dossier cache/ de phpBB, ça doit suffire avec les fichiers GYM 2.0.B2.

Pour les stats, tout est normal, la première ligne de stats (temps de mise en cache) est stockée en dure dans le cache, le reste est ajouté à la volée, mais ce n'est apparemment pas possible avec gunzip en utilisant readgzfile().

Pour yahoo, il n'y a pas de raisons de lui fournir des sitemaps moins remplis, s'il met du temps à crawler, c'est plus parce qu'il apprécie particulièrement les sites qui s'acquittent d'une inscription dans son annuaire ... Ça va venir, une fois qu'il aura vraiment commencer a crawler, il le fera jusqu'au bout, mais ça peut prendre assez longtemps avant qu'il ne commence.
En même temps, il n'apporte en générale pas un nombre fulgurant de visiteurs pour les site francophones ...

Je met ton sitemap dans le deuxième post ;)
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede trefle » Sam Juil 19, 2008 7:58 am

salut,

je n'ai pas encore installé gym 2b2.0 je n'ai pas encore eu le temps.

sinon pour yahoo sa fait déja 4 ans que le forum existe à cette adresse d'où mon impatience un peu mais bon sa n'est pas grave.

et si mes souvenirs sont bon l'annuaire français de yahoo est fermé donc ... c'est balo.

je sais que yahoo ne représente pas grand chose mais bon autant etre référencé un peu partout.

mais pour yahoo ce qui m'enerve c'est que je ne comprend pas pourquoi il lis le forum crawle 100 pages par jour sans jamais rien référencé.
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede dcz » Sam Juil 19, 2008 8:11 am

4 ans :shock: on va bientôt pouvoir comparer yahoo a DMOZ :mrgreen:

C'est un peu long quand même, mais il faut dire que tu n'as pas super travaillé les backlinks : yahoo en trouve 19 pour la home et 76 en tout, Google quant a lui n'en considère aucun : http://www.google.fr/search?q=link:foru ... naques.com

Ça doit venir de là à mon avis, les sitemap devrait aider cependant ;)
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede trefle » Sam Juil 19, 2008 8:25 am

je ne suis webmaster que depuis quelque mois.

avant le forum se trouver à l'adresse http://www.lesarnaques.com/forum il y avait beaucoup plus de back link et sa n'avait pas changé grand chose .. les anciens liens pointant vers http://www.lesarnaques.com/forum sont quand même redirigés vers le nouveau forum. Pour les backlinks j'en referais mais plus tard.


d'ailleurs pour le site qui a beaucoup plus de back link yahoo se contente aussi de ne répertorié que la page d'accueil ... ( bon c'est vrai le code est horrible ( n'estpas de moi ) mais sa va changer j'ai presque fini de tout recoder )

j'ai aussi remarqué que yahoo a énormément de mal avec le robots.txt qu'il n'a toujours pas lu ...
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede dcz » Sam Juil 19, 2008 8:34 am

Ah ça, yahoo et les robots.txt, c'est toute une histoire, à se demander pourquoi il les crawl autant vu qu'il ne les applique presque jamais entièrement ...

Que te dire a part de payer une inscription dans leur annuaire international ...
Sur phpBB SEO, il a mis un an à s'y mettre vraiment, et depuis, il crawl tout bien, mais envois mois de visiteurs que Live + MSN, et ce malgré un bon positionnement, comme par exemple :
http://fr.search.yahoo.com/search?p=seo
c'est dire ...
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede trefle » Sam Juil 19, 2008 8:39 am

Je pense qu'on va rester comme l'on est vis a vis de yahoo il nous a déja référencé la page d'accueil du forum tout seul comme un grand récemment donc .... peut être est ce le debut.


Trefle.

ps : on est dans dmoz.org avec www.lesarnaques.com donc on peut peut etre dire qu'il a été plus rapide que yahoo ...
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede dcz » Sam Juil 19, 2008 8:53 am

Yahoo battu par DMOZ :lol: Faut le faire !!

Il y a quand même le cas d'un de nos membre anglophone pour qui l'attente avant inclusion dans dmoz a été de 6 ans ...

Comme quoi, il y a encore un peu de marge pour que yahoo ne batte pas ce record sur ton forum :mrgreen:

Plus sérieusement, il y a des chances que les sitemaps débloquent un peu la situation pour yahoo ;)
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede trefle » Sam Juil 19, 2008 9:11 am

j'avais fait dse sitemaps manuel enfin avec un programme il y a deja 3 mois ( que je n'actualisé qu'une fois par mois ) et .... voila quoi ... enfin je ne désespère pas.
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede trefle » Sam Juil 19, 2008 4:27 pm

Pour la limite, à 5 chiffres tu parles de la limite des URLs totale ?
Si c'est ça, vide tout le contenu du dossier cache/ de phpBB, ça doit suffire avec les fichiers GYM 2.0.B2.


Salut

je parle effectivement du fait que j'ai du mal a dépassé les 11.000 url alors que j'ai 11500 sujets.

en installant gym 2.0b2 je pourrais avoir toutes les urls dans le sitemap ?


Trefle.

ps : désolé pour le double post je n'ai pas fait attention.

je n'arrive pas a supprimer le dernier post est ce normal? car comme sa j'aurais pu intégrer ceci dans le post précédent.
Dernière édition par trefle le Sam Juil 19, 2008 9:52 pm, édité 2 fois.
trefle
PR6
PR6
 
Messages: 674
Inscription: Mar Juin 03, 2008 5:46 pm

Messagede dcz » Sam Juil 19, 2008 4:28 pm

Oui, cette limite a été ramenée à 50 000 dans la b2. Il faudra certainement que tu vides le cache de phpBB pour en voir les effets.


[EDIT]
Et t'es pas si loin de toutes les avoir en cache chez Google les urls de ce forum :

http://www.google.fr/search?q=site:foru ... aison-sav/ : un total d'environ 7 960 sur forum.lesarnaques.com/articles-livraison-sav

;)
Dernière édition par dcz le Sam Juil 19, 2008 4:32 pm, édité 3 fois.
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21325
Inscription: Ven Avr 28, 2006 9:03 pm

Suivante

Retourner vers GYM Sitemaps & RSS

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 4 invités