Comment utiliser SiteSpider...

Forum dédié aux techniques de référencement que vous avez mis en place. Test, études de cas, analyses des résultat obtenus.

Modérateur: Modérateurs

Comment utiliser SiteSpider...

Messagede jcg11290 » Dim Juil 09, 2006 3:07 pm

dcz a écrit:Pour vous faciliter la vie : SiteSpider.
    Ce programme, comme bien d'autres également disponibles, va, moyennant quelques réglages, vous sortir une belle liste d'URLs, une par ligne.
    Pensez à ne pas lister les URLs déjà présente dans les autres plan Google Sitemaps ;)
    Vous pouvez exclure celon pas mal de critères avec SiteSpider.

    Si vous rencontrez des problèmes pour utiliser SiteSpider, merci de lancer un sujet (ou de répondre à ceux déjà lancés sur ce sujet) dans le Forum Techniques de Référencement


Bonjour,

J'ai téléchargé SiteSpider sous forme d'un fichier SiteSpider.msi et je l'ai installé mais je ne vois pas du tout comment il fonctionne.. quand je le lance, rien ne se passe..
Peut-être j'ai dû oublier qqe chose.. :?: :?:

J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Publicité

Messagede dcz » Dim Juil 09, 2006 3:14 pm

En fait ce programme est assez basique.

Normallement tu as C:\WorldWideWeb-X.com et C:\Program Files\WorldWideWeb-X.com\SiteSpider à regarder.

Dans le premier se trouve le fichier SiteSpider.xml te permettant de configurer le bot (nom de domaine, profondeur, exclusions etc ...).

Dans le second se trouve les fichiers txt de sortie, celui qui nous intéresse pour ajouter du contenu aux listings de mx Google Sitemaps sera urlList.txt.

Une fois configuré, lance SiteSpider.exe, tu va le voir dans la liste des processus windows (CTRL+SHIFT+ECHAP sur windows) , c'est tout.

Par contre tu peux suivre l'évolution des txt, ils grandissent en temps réel.

Enfin, vérifie le contenu obtenu, histoire de bien mettre des URLs intéressantes (pas interdit par robots.txt) dans le listing Google Sitempas.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21238
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede jcg11290 » Dim Juil 09, 2006 3:19 pm

Ok, j'ai trouvé les fichiers et je regarde ça de suite...

J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede Marie » Dim Juil 09, 2006 4:54 pm

Bonjour :D

jcg11290, je te donne mon SiteSpider.xml (le fichier de configuration de Site Spider). Adapte le à ton cas.

Code: Tout sélectionner
<?xml version="1.0" encoding="utf-8" ?>

<config>
<logFile>log.txt</logFile>
<urlListFile>urlList.txt</urlListFile>
<progressFile>progress.txt</progressFile>
<maxResponseSize>120000</maxResponseSize>
<maxUrlLength>200</maxUrlLength>
<domain>www.micro-astuce.com</domain>
<xmlOutFile>xmlOutput.xml</xmlOutFile>
<siteMapFile>sitemap.xml</siteMapFile>
<cacheDir>c:/WorldWideWeb-X.com/cache</cacheDir>
<unspideredLog>unspideredLog.txt</unspideredLog>
<maxSpidered>50</maxSpidered>
<maxUnspidered>99000</maxUnspidered>
<pageDelaySeconds>2</pageDelaySeconds>
<chopAtQueryBool>yes</chopAtQueryBool>
<useCacheAfterN>5</useCacheAfterN>
<windDownCount>1000</windDownCount>
<windDownPattern>*</windDownPattern>
<saveOutsideUrls>outsideUrls.txt</saveOutsideUrls>
<avoidPatterns>
<pattern>*Forum*</pattern>
<pattern>*anotherSamplePattern*</pattern>
</avoidPatterns>
<avoidOutPatterns>
<pattern>*samplePattern*</pattern>
<pattern>*anotherSamplePattern*</pattern>
</avoidOutPatterns>
<startPages>
<url>http://www.micro-astuce.com/</url>
</startPages>
<fetchFromCache>yes</fetchFromCache>
<updateCache>yes</updateCache>
<cookiesDir>c:/WorldWideWeb-X.com/cookies/</cookiesDir>
<saveCookies>yes</saveCookies>
<sendCookies>yes</sendCookies>
</config>


Tu as une aide SiteSpiderDoc.rtf dans le répertoire de Site Spider (dans Program Files) qui t'explique les différents paramètres.

J'ai modifié <domain>www.micro-astuce.com</domain>
<maxSpidered>50</maxSpidered> (50 ça me suffisait)
<pageDelaySeconds>2</pageDelaySeconds> (J'ai pas bien compris à quoi ça servait :oops: )
<pattern>*Forum*</pattern> (pour éviter au spider d'entrer dans le forum)
<startPages>
<url>http://www.micro-astuce.com/</url>
</startPages>

Quand site spider est terminé (il n'apparait plus dans les processus du gestionnaire de tâches), ton fichier urlList.txt contient tes URL. :D
@+
Avatar de l’utilisateur
Marie
PR1
PR1
 
Messages: 159
Inscription: Mar Juin 27, 2006 7:05 pm

Messagede jcg11290 » Dim Juil 09, 2006 5:12 pm

Bonsoir Marie,

Je te remercie pour l'aide, c'est sympa.. j'avais regardé le fichier d'aide..
Marie a écrit:Tu as une aide SiteSpiderDoc.rtf dans le répertoire de Site Spider (dans Program Files) qui t'explique les différents paramètres.
mais je n'y avais rien compris..

Je vais prendre ton fichier en changeant juste le domaine et l'url..
Ce qui me préoccupais surtout, c'est comment exclure le forum

Je l'avais déjà lancé avec le fichier d'origine et je viens de constater qu'il a fini.. n'est plus dans le gestionnaire des tâches..
J'ai regardé le 1er résultat, mais à priori a laissé bcp d'urls de côté.. :?: :?:

Bof, c'est pas grave, je vais recommencer avec le tien...

Encore merci..
J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede Marie » Dim Juil 09, 2006 6:24 pm

Fais attention de ne pas être limité par ce paramètre:
<maxSpidered>50</maxSpidered>
C'est le nbre maximum d'url à spider.
Si tu as beaucoup d'url sur ta page d'accueil, augmente le.

@+
Avatar de l’utilisateur
Marie
PR1
PR1
 
Messages: 159
Inscription: Mar Juin 27, 2006 7:05 pm

Messagede jcg11290 » Lun Juil 10, 2006 6:03 am

Bonjour Marie,

J'ai relancé avec ton fichier et je me suis aperçu qu'il y avait un paquet d'erreurs dans 1 ou 2 répertoires avec des urls qui n'aboutissaient nul part.. (forum exclu dans la recherche)

Ceci va déjà me permettre de tout rectifier...

Merci... et bonne journée..
J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede dcz » Lun Juil 10, 2006 7:02 am

J'y avai pas pensé, mais notre extracteur de liens peut aussi bien aider à établir des listes et à débugguer les liens ;)

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21238
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede jcg11290 » Lun Juil 10, 2006 2:46 pm

Bonjour,

En faisant une extraction de liens avec SiteSpider j'obtiens des erreurs avec des liens qui se trouvent en commentaire.. exemple dans une page .html .. ce lien me servait en essai et je ne l'avais pas supprimé.. :
Code: Tout sélectionner
<!--
<ul class="decal01">
<li><a title="Photos de Jardin" accesskey="" href="pageerreur404.html">Photos de Jardin</a></li>
</ul>
-->

Je pensais que les commentaires n'étaient pas pris en compte...

Merci..
J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede dcz » Lun Juil 10, 2006 3:02 pm

Les bots trouvent tous les liens href, après, il ne les prennent pas forcement tous en compte, mais il se peut tout à fait qu'ils suivent de URLs trouvés dans des commentaires.

Par exemple, Google utilise aussi le HTTP_REFERER ou les adsense pour trouver de nouvelles URLs.

Tous les moyens sont bons ;)

du coup il est clair qu'il vaut mieux éviter de mettre de faux liens, même en commentaire, et c'est d'ailleurs pour cela que j'encourage l'utilisation du domaine consacré aux exemples : www.example.com plutôt que de créer un faux lien inutile par lien générique.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21238
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede jcg11290 » Lun Juil 10, 2006 3:17 pm

OK, merci..

Je vais en avoir du boulot pour supprimer tous les liens mis en commentaires car ne servent plus et que je n'avais pas supprimés... :?

J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede dcz » Lun Juil 10, 2006 3:17 pm

hehe, en plus ça va alléger tes pages ;)
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21238
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede jcg11290 » Mer Juil 12, 2006 3:21 pm

Bonjour,

Voilà un nettoyage de fait.. quelques erreurs d'inattention dans des pages ".php" et c'était un peu le "bor..l"..

J.Cl. :wink:
Avatar de l’utilisateur
jcg11290
phpBB SEO Team
phpBB SEO Team
 
Messages: 894
Inscription: Lun Juin 19, 2006 4:11 pm
Localisation: Carcassonne(11)

Messagede dcz » Mer Juil 12, 2006 4:19 pm

Comme quoi, Optimisation pas que du référencement ;)
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21238
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede Levoyageur » Dim Déc 10, 2006 5:19 pm

Bonsoir,
Je viens d'essayer cette application en reprenant le fichier de Marie, fichier dans lequel j'ai mis mon site
Ce que je ne comprends pas, c'est que les fichiers urlList.txt et xmlOutput.xml s'alimentent avec des adresses commençant par -http://www.navidir.com
D'où vient cette adresse
Merci
Levoyageur
 
Messages: 44
Inscription: Ven Nov 10, 2006 7:27 am

Suivante

Retourner vers Techniques de Référencement

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 16 invités


 
cron