J'ai été discret ces derniers temps. J'étais à fond sur un projet qui a requis toute mon attention : l'augmentation du nombre de blogs UK pour Wikio (www.wikio.co.uk). Le site UK est le dernier né de la série des sites Wikio (après wikio.fr, wikio.it, wikio.es, wikio.de et wikio.com), et il a toujours été un peu le parent pauvre en ce qui concerne l'étendue de ses sources. J'ai donc mis en place depuis quelques semaines des algos adaptés, et je suis heureux de vous annoncer que le site UK a dépassé 100 000 blogs cette nuit. Exactement 113 000 à l'heure où j'écris, et ce chiffre va encore augmenter dans les heures qui viennent : il y a encore pas loin de 30 000 blogs dans les tuyaux.

Si vous allez sur le site vous verrez "Live breaking news from 156920 blogs", mais c'est le nombre des blogs anglophones, et pas seulement celui des blogs UK. Le même nombre est d'ailleurs affiché sur wikio.com. Les deux sites puisent dans la même base, mais n'affichent pas les mêmes infos : c'est une question de pondérations. Le site UK affiche en priorité les news UK, et le site US affiche en priorité les news US (d'où la nécessité de localiser la source). Vous pourrez par exemple voir les différences de réactions sur des événements internationaux, que ce soit la situation en Iran, ou la mort de Michael Jackson : ce n'est pas inintéressant !
C'est hélas très compliqué à faire dans la pratique ! Il est extrêmement difficile pour des machines de déterminer si une source est britannique ou américaine (ou canadienne, australienne, etc.). Evidemment, dans le cas où l'url se termine par .co.uk, il n'y a guère de doute. Mais c'est rarement le cas. La plupart des blogs britanniques sont des blogspot.com, wordpress.com, etc.
Les algorithmes sont donc très délicats, et à ma connaissance, aucun service ne propose une discrimination correcte US/UK. Si vous essayez Google Blogs Search ou Technorati, vous verrez par exemple que c'est un gros méli-mélo sans tri véritable autre que (peut-être) sur le domaine .co.uk.
La difficulté provient du fait qu'aucun critère n'est fiable à lui tout seul. On peut par exemple s'appuyer sur l'orthographe. On sait que les Britanniques écrivent colour ou neighbour et non color, neighbor comme les Américains. Utilisable, mais il n'y a que très peu de mots concernés, et on n'est pas certain de les trouver sur un blog lambda. Pour tout compliquer, Canadiens, Australiens et autres pays du Commonwealth utilisent eux aussi l'orthographe britannique. On peut également s'appuyer sur le profil du bloggueur : s'il mentionne "London, UK", c'est gagné. Mais il n'y a pas toujours un profil (loin de là), et encore faut-il le trouver et savoir l'analyser. Le Web 2.0 manque un peu de standards ! C'est plutôt un gros bricolage...
On peut également s'appuyer sur la topologie de la blogosphère (j'espère qu'on pourra bientôt vous montrer de belles cartes US/UK sur le modèle de la Wikiopole FR). Les blogs UK citent principalement les blogs UK, et les blogs US les blogs US. Le Web n'est qu'une somme de communautés... Dans la pratique c'est un peu plus piégeux : les blogs UK citent aussi des blogs US (mais, l'inverse est rare, ce qui facilite un peu les choses).
Bref, pour arriver à un "sourcing" fiable, il faut mixer tous ces critères entre eux, et je vous garantis que ça n'a pas été simple. Mais je suis plus que content du résultat, à la fois en terme de couverture et de fiabilité. Le site UK est maintenant le deuxième site Wikio en nombre de blogs. J'espère qu'il vous sera utile si vous vous intéressez à la culture britannique, et si vous voulez découvrir les blogs d'Outre-Manche. J'aurais adoré ça quand j'apprenais l'anglais au lycée (il n'y avait que la BBC en ondes courtes, c'est vous dire...). Les classements par catégories sont encore bien légers, mais je suis en train d'y travailler d'arrache-pied avec une équipe d'étudiants de master que Wikio a eu la gentillesse de prendre en stage, et nous voyons déjà émerger de très belles catégories. Je ne sais pas si certaines (peut-être Wine & Beer) verront le jour dès le prochain classement, mais sinon, en tout cas, fin juillet.
Ca aussi c'est un sacré challenge : catégoriser de la façon la plus fiable possible les thématiques de centaines de milliers de blogs... Pas simple : bel exemple de sémantique et de topologie entremêlées. Mais ce sera l'objet d'un autre post, je ne veux pas vous lasser !
No comments:
Post a Comment