Attention ! Etes vous sûrs d'avoir une bonne assurance emprunteur pour votre crédit immobilier ?


nov 08 2008

Suivre l’activité de Googlebot sur votre site grâce aux logs Apache

Tag: Coding, SEOnoreply @ 14:59

Vous avez été des milliers à vous plaindre du manque d’articles sur le référencement sur ce blog, je profite donc d’un petit script d’analyse de logs pour revenir dans le droit chemin !

Le suivi de l’activité des robots des moteurs de recherche sur votre site, et tout particulièrement du Googlebot, fait partie intégrante d’un bon référencement. Certes, Google mets à disposition des éditeurs depuis quelque temps déjà une série d’outils de suivi, les Google Webmaster Tools (GWT). C’est bien, mais pas toujours très complet et les mises à jours souvent aléatoires…

Les webmasters ont pourtant tout ce qu’il faut sous la main pour avoir des stats précises et surtout en temps réel pour suivre les bots : les logs du serveur Apache, souvent les meilleurs amis du référenceur !

Que faire avec ces logs ?

Les logs ne sont qu’un indicateur de plus pour l’analyse de la crawlabilité d’un site mais il y a de nombreuses façons de les utiliser. En vrac :

  • Identifier des liens cassés (404) ou d’autres erreurs rencontrées par le bot lors de ses visites
  • Si une page du site ne ressort pas dans l’index de Google, la première chose à faire est de vérifier si cette page a ou pas été crawlée par le googlebot
  • On peut également s’amuser à corréler la fréquence de passage du bot au PageRank dune page, ou à son traffic réel, ou encore à sa position dans les SERP
  • L’étude des visites du googlebot peut aussi servir à améliorer la structure des liens internes, détecter des pages isolées, etc.

Il y a encore sans doute de nombreuses autres apllications mais entrer dans le détail n’est pas l’objet de cet article.

Continue reading “Suivre l’activité de Googlebot sur votre site grâce aux logs Apache”


sept 14 2008

Exemple d’utilisation de la classe SpiceCurl : le ScoopeoBot

Tag: Codingnoreply @ 16:17

Je vous ai expliqué il y a quelques jours comment utiliser les fonctions curl de php pour récupérer des pages web et vous ai proposé à titre d’exemple une petite classe php5 prête à l’emploi (SpiceCurl). C’est l’occasion aujourd’hui de la tester, et pour cela j’ai imaginé une petite application bien sympa : un assistant pour Scoopeo, le ScoopeoBot :D

En effet, il faut se rendre à l’évidence : passer son temps à promouvoir ses propres scoops, pourrir ceux des autresmodérer le spam, plusser les copains et moinser les commentaires des nombreux boulets de Scoopeo toujours à l’affût d’un troll ou d’une indignation ; que de tâches répétitives qui nuisent à notre productivité et font perdre quelques précieuses places à notre employeur dans une compétition internationale toujours plus impitoyable (vous pouvez respirer) !

Heureusement, avec un peu d’imagination et de technique, nous allons pouvoir déléguer toutes ces tâches ingrates à un robot et ainsi nous remettre au travail l’esprit serein !

J’ai donc imaginé le cahier des charges suivant pour notre robot :

  • Le robot doit pouvoir gérer un nombre illimité de comptes (bien sûr nous n’en avons qu’un chacun, mais peut être vos amis vous demanderont d’utiliser votre robot donc autant prévoir)
  • Le robot doit reconnaitre les sites ET les comptes de vos amis, ainsi que des spammeurs
  • Le robot évitera d’être trop bête et de systématiquement cliquer les amis et moinser les autres par exemple
  • Pour ne pas surcharger les serveurs de scoopeo, le robots devra observer des pauses entre chaque action
  • Le robot devra pouvoir : voter ou modérer un scoop, plusser ou moinser un commentaire

Bon, ça me semble déjà pas mal donc voici ce que vous attendez tous, le code ; qui se présente sous la forme de 4 petites classes :

  1. ScoopeoAnonymousAccount : une classe de base pour définir un utilisateur de scoopeo non identifié, avec des méthodes pour récupérer une liste de scoops, une liste de commentaires et cliquer.
  2. ScoopeoAccount : étend la classe précédente et ajoute la possibilité de s’identifier avec un compte scoopeo.
  3. ScoopeoSource : définit une source sur scoopeo, ce peut être un membre de scoopeo, ou un domaine d’où provient des scoops. Cette classe a deux méthodes pour savoir comment réagir face à un scoop ou face à un commentaire de cette source.
  4. ScoopeoBot: la classe principale qui sert d’interface pour ajouter des sources, des comptes utilisateurs, des pages à analyser et qui va dire au robot ce qu’il doit faire.

Continue reading “Exemple d’utilisation de la classe SpiceCurl : le ScoopeoBot”


sept 11 2008

Curl Just Want To Have Fun

Tag: Codingnoreply @ 8:52

On peut dire que vous êtes vernis : parce que j’avais une féroce envie de faire un jeu de mots pourri (et même deux), je me sens obligé de balancer un peu de substance pour en faire un article.

Au programme aujourd’hui donc, Curl.

Pour ceux qui ne le savent pas, Curl est la librairie préférée des scrapers, pourrisseurs de commentaires et autres spammers :)

Je vous propose donc ici, un objet PHP5 que vous pourrez utiliser pour récupérer des pages web comme si c’était un vrai internaute qui visitait la page (ou presque).
Continue reading “Curl Just Want To Have Fun”


sept 06 2008

Utiliser les “magic functions” de PHP 5 pour traduire son site

Tag: Codingnoreply @ 17:17

Avant tout je tiens à préciser que cet article ne traite pas de Google Translate. Désolé amis spammeurs mais je garde mes fonctions de traduction automatique pour moi tout seul encore quelque temps.

Aujourd’hui je m’adresse donc aux vrais gens, qui font des vrais sites, et en particulier à tous ceux qui ont à gérer un site internet multi langues, qu’ils soient cravatés ou non. Ceux qui savent à quel point les soucis liés à l’internationalisation peuvent être handicapants dans le développement d’un projet ambitieux qui avait pourtant mobilisé toutes les synérgies de l’entreprise, hein mémé (je l’entends mal mais je crois qu’elle a répondu “oui oui” depuis la cuisine).

Les solutions existantes pour localiser un site Internet

Comme à chaque fois que je développe un site Internet multilingue donc (c’est à dire environ une fois tous les 33 ans), j’essaye d’abord de faire un peu le tour des solutions existantes pour savoir laquelle éventuellement dépouiller intégrer à mon projet. Et le constat est à chaque fois le même, je distingue en général trois types de solutions :

  1. gettext qui semble une solution solide et répandue, ceux qui ne connaissent pas, je vous laisse découvrir tout ça sur leur site super accueillant.
  2. définir des pages et des pages de constantes à traduire ensuite dans chaque langue, je n’ai pas d’exemple en tête mais il doit bien y avoir des CMS pourris sur le marché du genre de Joomla qui doivent fonctionner comme ça.
  3. se taper à la main autant de versions du site qu’il y a de langues ; c’est souvent comme ça que ça finit !

Continue reading “Utiliser les “magic functions” de PHP 5 pour traduire son site”