zakaria blogger: Blogs: Que fait Google ?

Vous avez sans doute remarqué que le petit widget « Ils en parlent » en colonne de gauche de ce blog dysfonctionne depuis quelque temps.

Je m’étais fabriqué ce widget il y a bien longtemps déjà, à l’aide de l’opérateur link de Google Blogsearch (link:aixtal.blogspot.com). Cet opérateur permettait d’obtenir tous les billets d’autres blogs qui citaient un de mes billets. La sortie est disponible au format RSS, ce qui permet une intégration facile. C’est d’ailleurs le même mécanisme, basé sur Google Blogsearch) qui se trouve sous chacun des billets (l’appel billet par billet est fourni en standard par Blogger, contrairement au widget que j’ai fabriqué). Je trouvais cette fonctionnalité assez intéressante, puisqu’elle permettait de rebondir de blog en blog et de suivre les « conversations » que déclenche un post.

Malheureusement, le comportement a changé. Il y a eu quelques alertes en septembre, le comportement se modifiait, puis revenait à la normale, mais depuis le début octobre, c’est fini, Google Blogsearch est passé dans un autre mode de fonctionnement. Si vous suivez les liens qui apparaissent sur ce widget, ou directement sur Google Blogsearch, vous verrez que les billets listés, pour la plupart d’entre eux, n’ont pas de lien vers un des miens. Dans la plupart des cas, ce sont des blogrolls qui pointent vers ma home, « http://aixtal.blogspot.com ».

Et après, me direz-vous ? Eh bien cela enlève à peu près tout l’intérêt de cette fonction. Plus possible de suivre les « conversations » de billet à billet. Chaque fois que Pierre Assouline ou Language Log publient un nouveau billet, Google Blogsearch y voit un nouveau lien... L’intérêt est médiocre. Et évidemment, il ne faudrait pas s’appuyer sur les résultats chiffrés que retourne Google Blogsearch pour essayer de déterminer si votre blog a été beaucoup lié, car ces résultats n’ont rien à voir avec le vrai nombre de citations (2803 par exemple avait fait cette erreur – j’avais laissé un commentaire à l’époque).

Les effets de bord sont même encore plus désagréables. Je constate par exemple ce matin que le serpent se mord la queue. Ainsi, mon dernier billet « Déshabillons les communistes » semble avoir été cité par tout un tas de billets de French Politics. Ce n’est pas le cas... Le cercle est vicieux : un de ses widgets reprend les liens de mon widget, et ça tourne gentiment en rond.

Que s’est-il passé ? L’explication technique est simple. Auparavant, Google utilisait les flux RSS dans son service Blogsearch, ce qui lui permettait d’avoir une notion de billet. Désormais, il utilise simplement le mécanisme de crawl général ("full-text") de Google. Cela a été confirmé par Jeremy Hylton de l’équipe officielle de Google Blogsearch.

Quelles peuvent être les raisons de ce changement ? La raison avancée par Jeremy Hylton est tout à fait sérieuse : un certain nombre de blogs ne publient pas des flux complets, mais des résumés sans liens, et dans ce cas, Blogsearch devait donc faire face à du « silence ». Mais avec le nouveau comportement, le diable chassé par la porte est rentré par la fenêtre. C’est désormais un « bruit » important qui affecte les requêtes sur Blogsearch. Mon impression est d’ailleurs que le bruit introduit est largement plus grand que le silence qui a pu être réduit. Jeremy Hylton explique que le problème sera corrigé, en faisant d’abord une capture complète de la page, puis en ne retenant que la partie qui ne fait pas partie du billet.

We do expect to fix the problem you're seeing. We'll use the full page content, but exclude the content that isn't really part of the post.

Nous verrons. J’ai de gros doutes, connaissant bien le problème, que j’ai analysé en détail pour Wikio. La difficulté de la tâche est immense.

Le jeu valait-il alors la chandelle ? Il me semble qu’il y a une autre raison sous-jacente : la réduction des coûts liés à Blogsearch (ce qui me rend pessimiste sur l’amélioration promise). Fusionner Blogsearch (du moins du point de vue de la capture) avec le moteur de recherche Web classique permet de n’avoir plus qu’un service à maintenir au lieu de deux. Car la maintenance d’un vrai moteur de blogs est extrêmement difficile. Le problème des flux partiels n’est qu’une toute petite partie de l’iceberg. Parmi les problèmes d’une très grande difficulté, je n’en citerai qu’un : l’identification des sources... Qu’est-ce qu’un blog ? Je doute que nous soyons deux à répondre de la même manière à cette question. Mais en tout cas, à peu près tout le monde se trouvera sans doute d’accord pour exclure les médias classiques (Le Monde, Le Figaro) ou les agrégateurs qui fleurissent un peu partout sur la Toile. Comme faire, à part recruter une armée (coûteuse) de documentalistes qui filtrent les sources à l’échelle planétaire ? Google ne peut pas se le permettre.

Un autre indice montre que Google est en train d’opérer une convergence de ses services. Début octobre également (tiens ?), le blog officiel de Google présentait une nouvelle fonctionnalité, le groupage (clustering) des billets apparentés sur sa home page, du moins aux US. La technologie est directement reprise du groupage que fait Google News. La nouvelle a été reprise en boucle sur la blogosphère, et généralement perçue comme une innovation positive.

Je n’ai pas la même analyse. Si vous examinez de façon détaillée ce qui apparaît dans les groupes en question, vous verrez que ce sont des informations qui sont fortement apparentées du point de vue thématique, et fortement cohérentes du point de vue temporel (généralement une durée de quelques heures). Ce n’est pas le tempo des blogs. Ce type de groupage favorise les pics d’articles nombreux, très proches dans leur contenu, et quasi simultanés – c’est-à-dire, typiquement la reprise en boucle des infos des agences de presse. On y retrouve donc soit des blogs sans grande originalité, qui se contentent de copiés-collés rapides, soit des agrégateurs, soit des médias purs et simples. Les blogueurs qui apportent une véritable valeur ajoutée réagissent plus lentement, et forcément dans des termes moins proches de l’original. Trop tard, trop différents pour être groupés...

Là aussi, j’ai étudié de près le problème, puisque c’est le mode fonctionnement de la partie supérieure de la page d’accueil de Wikio. Il n’y a rien dans l’algorithme actuel qui favorise explicitement les médias par rapport aux blogs, et pourtant on n’y trouve guère que des médias, pour les raisons que je viens d’expliquer. C’est d’ailleurs un problème sur lequel Wikio va travailler (et ce n’est pas facile), car la première partie de la home ressemble à l’AFP ou à France Info, ce qui est d’un intérêt modéré...

Nous verrons bien comment Google Blogsearch évolue. Mais j’ai bien peur que la fusion en cours s’accompagne d’une perte assez forte de la spécificité de la recherche blogs. Est-ce que Google aurait lu en détail le rapport Technorati, et en aurait conclu que les blogs étaient en déclin et que l’investissement ne valait plus le coup ? Il est vrai qu’il est peut-être plus à la mode de mettre des billes dans les réseaux sociaux (où Google avait peut-être un petit cran de retard)...

A suivre. En tout cas, je suis bon pour refaire mes widgets. Ce sera l’occasion de tester si un tel service peut-être greffé sur Wikio...

Mise à jour

Ca y est, j'ai implémenté une petite maquette d'outil, que vous pouvez voir en colonne de gauche et sous les posts. Enfin, pas sous celui-ci, hélas, il s'est fait blacklister par Wikio sous prétexte qu'il contient "AFP". Pas bon, ça. Ca fait partie des choses à arranger...

zakaria blogger

Tuesday, December 16, 2008

Blogs: Que fait Google ?

No comments:

Post a Comment

Followers

Blog Archive

About Me