nov 08 2008
Suivre l’activité de Googlebot sur votre site grâce aux logs Apache
Vous avez été des milliers à vous plaindre du manque d’articles sur le référencement sur ce blog, je profite donc d’un petit script d’analyse de logs pour revenir dans le droit chemin !
Le suivi de l’activité des robots des moteurs de recherche sur votre site, et tout particulièrement du Googlebot, fait partie intégrante d’un bon référencement. Certes, Google mets à disposition des éditeurs depuis quelque temps déjà une série d’outils de suivi, les Google Webmaster Tools (GWT). C’est bien, mais pas toujours très complet et les mises à jours souvent aléatoires…
Les webmasters ont pourtant tout ce qu’il faut sous la main pour avoir des stats précises et surtout en temps réel pour suivre les bots : les logs du serveur Apache, souvent les meilleurs amis du référenceur !
Que faire avec ces logs ?
Les logs ne sont qu’un indicateur de plus pour l’analyse de la crawlabilité d’un site mais il y a de nombreuses façons de les utiliser. En vrac :
- Identifier des liens cassés (404) ou d’autres erreurs rencontrées par le bot lors de ses visites
- Si une page du site ne ressort pas dans l’index de Google, la première chose à faire est de vérifier si cette page a ou pas été crawlée par le googlebot
- On peut également s’amuser à corréler la fréquence de passage du bot au PageRank dune page, ou à son traffic réel, ou encore à sa position dans les SERP
- L’étude des visites du googlebot peut aussi servir à améliorer la structure des liens internes, détecter des pages isolées, etc.
Il y a encore sans doute de nombreuses autres apllications mais entrer dans le détail n’est pas l’objet de cet article.
Continue reading « Suivre l’activité de Googlebot sur votre site grâce aux logs Apache »
