En 1994 le web existe à peine mais déjà David Filo et Jerry Yang étudiants à l'université de Stanford collectent les adresses des sites qui les intéressent et les regroupent sur un site web : le premier annuaire du web est né : Yahoo! Un annuaire ce sont des humains qui visitent des sites, les classent et leurs collent des mots clés pour qu’on les retrouves plus tard. L’annuaire de yahoo est limité par le nombre "d’enquêteurs" qui travaille pour yahoo.

En 1995 les chercheurs de Digital lancent Altavista[1], le premier moteur de recherche contrairement à un annuaire ce sont pas des humains qui font le tri mais un programme informatique. Altavista devient vite un succès car il recense beaucoup plus de pages que Yahoo mais par la suite la qualité des résultats va décroître mais surtout un concurrent arrive…

En 1998 Stanford frappe encore, Larry Page et Serguei Brin deux étudiants de la prestigieuse université révolutionnent la recherche sur Internet grâce au Pagerank de Google, comme Altavista c’est un moteur de recherche mais il est bien plus performant car il prend en compte les liens entre les pages.

Google se base sur les liens entre les pages pour classer les sites. Un blog seul n’est rien, les blogs n’ont de sens qu’en réseau, le blog est une affaire de lien. Le lien entre Google et les blogs est donc le lien entre Google et les blogs et donc le lien entre Google et les blogs… Désolé je n’ai pas pu m’en empêcher !

Lorsque sur mon blog je met un lien vers une page je fait le travail de "l’enquéteur" de Yahoo j’indique que tel site parle de telle chose et qu’il est intéressant[2]. Google exploite ensuite cette information pour faire son classement.

D’un côté les annuaires de type Yahoo qui donne la qualité mais peu de quantité, de l’autre les moteurs de recherche type Altavista : quantité mais peu de qualité. Au milieu Google qui en exploitant les liens met un peu d’intelligence humaine dans son classement, on obtient qualité et quantité. A la base l’algorithme Pagerank est très puissant, les blogs ne viennent pas le perturber[3] , au contraire, il l’améliore en y injectant un peu de traitement humain. C’est une sorte de calcul distribué, chaque bloggeur réalise un traitement, le tri de quelques sites, de manière bien plus pertinente qu’un programme et l’informatique de Google fait ce qu’elle sait faire : traiter rapidement une grande quantité d’information de manière bête.

Le risque pour google est que l’on finisse par pouvoir se passer de lui, après tout ce n’est plus lui qui fait le tri il ne fait qu’assembler les résultats… Le système de tags de del.icio.us me permet déjà de me passer de Google pour certaines recherches spécialisées dans les domaines plutôt geek. Je ne rentre plus les mots clés dans Google, mais je les utilise pour fabriquer l’url qui va m’afficher les meilleurs liens. Ce phénomène des tags n’a pas fini de nous étonner…

Notes

[1] A ne pas confondre avec Astalavista aujourd’hui ;)

[2] C’est pourquoi il est important de choisir les mots que l’on utilise dans un lien

[3] Le phénomène du Google boombing est totalement marginal, d’autant que la plupart du temps Google remonte l’explication en même temps que la bombe