Comment fonctionnent et comment exploiter le crawl, l’indexation et le classement par les outils de recherche

Posté le 15-07-2010

12

Fonction outils de rechercheBon aujourd’hui je vais tourner ce billet autour d’un ensemble de trois articles sur lesquels je suis tombé en faisant de la veille sur searchenginewatch.com.

Cet article en 3 parties s’intitule « Crawl, Index, Rank : A tactical SEO Framework » et a été écrit par Adam Audette.

Par soucis de synthèse pour vous et pour moi-même et parce que je pense aussi aux non anglophones j’ai décidé de vous résumer ici ce que l’auteur explique au travers de cet article au sujet des trois thèmes qu’il aborde : le crawl, l’indexation et le classement par les outils de recherche.

Au travers de ces billets il parle aussi bien du fonctionnement des outils de recherche que de méthodes d’organisation pour palier à des problèmes provenant de nos  sites et pouvant bloquer le bon déroulement des trois étapes décrites plus haut.

Je vous invite très fortement à réagir à l’article ou à ce que je dis ;)

Le crawling (Crawl)

Il s’agit du moment où les bots parcourent le web de lien en lien pour récupérer le maximum d’information. Pour le moment ces informations ne sont pas analysées et aucune intelligence ne leur est appliquées.

D’après l’auteur (et moi et vous je pense) il s’agit de la phase où il est nécessaire d’être le plus irréprochable … comment ranker un site qui ne peut être parcouru proprement ? Adam Audette propose une série d’outils qui permettent de détecter tout problème de crawl comme des redirections 301, des erreurs 404, du duplicate content …

Parmi cette liste d’outil je peux vous citer : des outils d’analyse de logs serveur comme AudettesMedia’s logfilt ou Splunk, des outils de crawling comme xenu ou des outils de diagnostic plus connu comme le Google Webmaster tools. En ajoutant à cette liste des outils come Linx ou SEO Browser qui vous permettront de voir vos pages comme un crawler vous serez en mesure de corriger toutes barrières à la phase de crawl des robots de nos chères Google, Yahoo, Bing et consorts.

L’indexation (Index)

Il s’agit donc de la phase ou l’outil de recherche utilise les informations récoltées pendant le crawl et classe les pages en fonction de ces dernières.

Pour l’auteur c’est « Time to get your hands dirty ». L’erreur à éviter un maximum est le duplicate content car c’est lors de cette étape ou les pages  ou plutôt les données sont analysées et où le phénomène de DC ressort.  Utilisez donc tous les outils à votre disposition pour trouver tous les chemins permettant d’accéder à une page et ainsi corriger tout ça !

Il rappelle une interview ou Matt Cutts explique que le Duplicate Content est mauvais pour nos sites (point 4). D’ailleurs je pense avoir à peu près compris ce point mais si quelqu’un pouvait nous l’expliquer plus précisément …

Adam donne également dans cet article que le linking interne est très important et permet de constituer une architecture de site forte qui favorise un bon crawl et une bonne indexation. (NDLR : on sait que le linking interne est très important pour positionner ses pages dans les SERP’s)

Maintenant nous allons voir les méthodes qu’il nous donne pour repérer les problèmes qui pourraient rentrer à l’encontre d’une bonne indexation :

  • L’analyse des fichiers log et en repérant les différentes erreurs et redirections
  • Analyser le linking interne du site et repérer quelle section à peu de liens internes …
  • Utiliser la requête « site :xww.site.fr inurl :mot_clé » pour repérer les pages dupliquées
  • Utiliser les fichiers XML sitemap et le Google Webmaster Tools pour comparer les pages indexées … (NDLR : enfin ça personnellement je me suis vite aperçu que le fiche donné dans le GWT était très vague, voire très très vague)
  • Utiliser la ligne « rel = canonical » pour donner aux outils de recherche l’adresse des pages « officielles »
  • Remplir dans les Webmaster Tools de Google et Yahoo les paramètres qui doivent être ignorés pendant le crawl et l’indexation
  • Utiliser le fameux robots.txt pour interdire l’indexation de certaines pages

Après les différentes méthodes il rappelle un point très important sur la chose qui pose souvent problème sur les sites à fort contenu … La pagination et les résultats de recherche. En effet souvent se sont les éléments qui font tourner en bourrique nos amis les robots.

Il nous donne deux conseils :

  • D’après ce que je comprends bien,  il préconise de créer une page avec tous les éléments sans pagination et de mettre en place un rel=canonical sur les pages de la pagination qui renvoie vers la version « sans pagination ».
  • Pour ce qui est des pages résultats (NDLR : personnellement les résultats de recherche me paraissent compliqué à indexer vu que c’est au travers d’un formulaire qu’on y accède. La seule façon de proposer aux outils de recherche des résultats est de créer par exemple un nuage des « expressions les plus recherchées » et dans ce cas-là il n’est pas rare que ça soit fait justement pour le SEO ou du moins pour gagner en visibilité sur Google, Bing …). Enfin bon il préconise de mettre un rel=canonical des pages de résultats vers  la page par défaut de la recherche.

Et pour finir il rappelle que cette phase et l’étude de cette phase concernant votre site est le meilleur moyen pour trouver les faiblesses dans vos URL (plusieurs url pour accéder à une page).

Le classement (Rank / Ranking)

Nous voilà arrivé dans la dernière partie : il s’agit de la partie la plus sombre des outils de recherche et de leurs fameux algorithmes. Pour cette phase l’expérience du SEO est la clé ! En effet comme l’explique l’auteur, avec le temps un référenceur sait du premier coup d’œil ce qui favorise ou défavorise le positionnement d’un site par rapport à un concurrent.  D’ailleurs les sites concurrents sont une des clés de l’analyse de votre site lors cette phase. A chaque fois qu’un compétiteur passe devant son site il faut le mettre dans un fichier excel et analyser le pourquoi du comment J (NDLR : pour certain ça demanderait un travail ennnnnnormmmeee).

Il rappelle quelques facteurs importants dans le positionnement des pages dans les outils de recherche :

  • Le linking interne et externe de la page à positionner
  • Le nombre de domaines uniques qui pointent vers la page
  • La qualité des domaines uniques qui pointent vers la page (NLDR : on sait maintenant qu’un « mauvais voisin » peut jouer à l’encontre du positionnement du site qui bénéficie d’un backlink de sa part)
  • Quelle est la qualité de la page des domaines uniques qui pointe vers votre site ?
  • Trouver où le site pêche en faisant toute ses analyses pour ses concurrents et en comparant toutes les données relevées.

SEO Quake est un outil parfait pour obtenir un cliché des principaux facteurs clé du SEO directement dans les SERP.

Voilà la synthèse et mes quelques petites remarques sur ces trois articles, j’espère que ça vous aura intéressé et n’hésitez pas à lire les billets originels :

Crawl : http://searchenginewatch.com/3640295

Index : http://searchenginewatch.com/3640583

Rank : http://searchenginewatch.com/3640853

A bientôt sur mon blog marketing internet pour le prochain billet et n’oubliez pas de suivre le blog sur facebook !

A lire également :

VN:F [1.9.14_1148]
Evaluez l'article entre 1 et 5
Rating: 0.0/5 (0 votes cast)
Commentaires (12)

Merci pour le plugin SEO Quake, je ne connaissais pas :)

Au passage, bon article !
PSP´s last blog ..Kingdom Hearts Axel by ANTMy ComLuv Profile

Très intéressant, merci pour les scripts d’exploitation de log, ça fait gagner du temps!

Pour le point 4 à propos de la duplication de contenu, il nous explique simplement que si 3 pages sont identiques, il en choisit une et supprimer les 2 autres (index complémentaire, voire desindexation). Cela joue aussi sur la qualité générale du site (indice de confiance si tu préfères).

merci c’est a peu prêt ce que j’avais compris :)

Super intéressant, merci pour les scripts.

Bonjour,

Cet article sur les différentes étapes Google pour établir le classement d’un site Internet est vraiment très intéressant et finalement peu traité. Il aurait été tout aussi pertinent d’évoquer les délais entre par exemple le crawl et le traitement des nouvelles informations.

Merci pour l’article !

Concernant la duplication des pages, elle ne favorise pas le ranking car le score est recalculé après la phase de dédoublonnage donc le score final d’un site correspond au ranking de l’ensemble des pages retenues (qui ne sont pas forcément les pages contenant le plus de liens car le dédoublonnage dépend de différentes règles).

Merci pour ce résumé !

Coucou ! merci pour l’article.
C’est un peu hors sujet mais
Est ce que quelqu’un aurait la gentillesse de me fournir quelques renseignements sur la façon dont fonctionne un crawler :
Je travaille pour une petite boite d’analyse de contenus web et notamment de l’opinion publique et notre souci majeur c’est de pouvoir récupérer les commentaires des internautes présents sur une page web (pas seulement les extraits d’articles) et éviter les duplicatas de documents indexés. Est-il possible qu’un logiciel fasse cela à un prix abordable.

Mille merci par avance pour votre réponse !

Thanks for this advice is very useful

Merci pour cet article,
J’ai appris pas mal de choses intéressantes sur l’attribution du rank. Très utile quand on cherche à progresser dans les SERPs Merci !

Ca a le mérite d’être bien détaillé au moins :)

Ecrivez un commentaire

Saisissez nom@mot_clé dans le champ nom pour profiter d'une ancre optimisée tout en laissant lisible les commentaires :)


Bienvenue sur mon blog SEO, je vous fait partager : test, avis et découvertes en référencement naturel !