Codage des pages vu par Google

Forums spécifiques au moteur de recherche Google, Référencement, PageRank, AdSense, AdWords, services, utilisation ...

Modérateur: Modérateurs

Codage des pages vu par Google

Messagede gowap » Ven Juin 16, 2006 11:41 pm

Via les stats google liées a la création d'un compte sitemap je constate qu'a priori Google voit environ 1/6eme de mes pages du forum en ISO-8859-1 (Latin-1) et tout le reste en US-ASCII !!!

Mes pages du forum ont pourtant toutes un
Code: Tout sélectionner
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">


Pour le site par contre, il voit heureusement les choses en ISO-8859-1 à 99.9%
Avatar de l’utilisateur
gowap
phpBB SEO Team
phpBB SEO Team
 
Messages: 1510
Inscription: Dim Mai 07, 2006 10:56 pm

Publicité

Messagede dcz » Sam Juin 17, 2006 3:21 pm

A mon avis il a raison, tu dois avoir du US-ASCII quelque part, provenant d'un copier coller probablement, ou de commentaires dans du html.

J'en ai aussi ;)

Par contre le 1/6ème, ce doit être des pages explorées pour l'instant dans le cadre des statistiques Google Sitemaps, car ça fait beaucoup quand même.


De toutes façons, je pense que Google comme d'autres à compris que le w3c était le phare dans le tempêtes, il doit pouvoir jongler un peut avec les standards, au pire il loupe une lettre ou deux, mais un mot entier, je ne pense pas.
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21383
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede dcz » Sam Juil 22, 2006 8:54 pm

En fait, je viens de comprendre, c'est du HTML ASCII, et c'est normale

phpBB code tous les caractères bizarres en HTML ASCII, du coup il y en a forcement un peut dans les pages.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21383
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede gowap » Lun Juil 24, 2006 1:17 pm

Salut,

Qu'est ce que tu entends par html ascii ?
Avatar de l’utilisateur
gowap
phpBB SEO Team
phpBB SEO Team
 
Messages: 1510
Inscription: Dim Mai 07, 2006 10:56 pm

Messagede dcz » Lun Juil 24, 2006 1:23 pm

http://www.w3schools.com/tags/ref_ascii.asp ;)

design :

طراحی

est codé comme suit (sans les espaces) :

Code: Tout sélectionner
& # 1591;& # 1585;& # 1575;& # 1581;& # 1740;


Du coup tout ce qui rentre pas dans du latin1 ressort codé en html ASCII.

Et ça explique notre interrogation.

Je m'en suis rendu compte en faisant une version UTF-8 des mod rewrite phpBB SEO, pour des sites UTF-8 (perse, cyrillique, chinois etc...) qui utiliseraient tout de même pas mal d'anglais (ou au moins des mot codé en latin) comme un site de design ou de programmation.

C'était donc pour filtrer tout ce qui n'est pas latin avant injection dans les URLs.

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21383
Inscription: Ven Avr 28, 2006 9:03 pm

Messagede gowap » Lun Juil 24, 2006 1:30 pm

J'ai toujours eut beaucoup de mal avec les pages de caracteres et autres joyeusetés, mais bon...

Ok pour la transformation des caracteres etrangers en leur équivalent en entités html. Mais ces entités html, c'est une esperluette, un diese et des chiffres, quelque chose qui est du latin-1. Les 127 premiers caracteres de latin-1 sont les 127 de la table ascii originale. Je ne vois pas pourquoi une page avec & # 1234 serait vu comme du US-ASCII alors que c'est du latin-1.

A ce compte la n'importe quelle page latin-1 sans caractere special propre au latin-1 devrait etre vue comme du us-ascii
Avatar de l’utilisateur
gowap
phpBB SEO Team
phpBB SEO Team
 
Messages: 1510
Inscription: Dim Mai 07, 2006 10:56 pm

Messagede dcz » Lun Juil 24, 2006 5:34 pm

c'est clair, après tout ce temps passé à trouver des alphabets suffisamment simples, les humains remettent ça avec les char-set :D On a plus qu'à espérer que l'unification prendra moins que 3000 ans :lol:

Mais là je crois que tu réponds à ta questions, seul les 127 premiers correspondent, le reste n'en fait pas partie c'est tout. La différence est là tout simplement, il nous arrive de sortir des 127 lettres qui correspondent ;).

++
Useful links :
SEO Forum || SEO Directory || SEO phpBB || Search
____________________

Liens Utiles :
Forum référencement || Annuaire référencement || Référencement phpBB || Recherche
dcz
Admin
Admin
 
Messages: 21383
Inscription: Ven Avr 28, 2006 9:03 pm


Retourner vers Forums Google

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 6 invités