Friday, October 31, 2008

Blogs: Fuites et liens radioactifs

Voilà, le classement d'octobre est quasiment bouclé... J'ai continué à améliorer l'algo, de façon à prendre en compte vos remarques et commentaires. La modification principale concerne la prise en compte des liens vers la page d'accueil (la "home") des blogs, alors que Wikio prenait en compte jusqu'ici seulement les liens de billet à billet (je l'évoquais ici). Le résultat est vraiment intéressant. On voit sortir des profondeurs du classement tout un tas de blogs nouveaux qui valent la peine d'être découverts, et en particulier des "blogs de filles", qui entrent nombreuses dans le top 100 (je suis sûr qu'Olympe va être contente que le "plafond de verre" se craquelle et que la "machosphère" régresse un peu. Manifestement le nouvel algo fait émerger de nouvelles communautés qui ont tendance à lier les blogs (donc les personnes), plutôt que les infos (comme ont tendance à faire les geeks). C’est un peu l’aspect “réseau social”, je présume. Du coup la part des blogs high tech dans le top 100 diminue, et c'est aussi bien ! J'ai produit quelques stats, mais j'en ai laissé l'exclu à Mr. Xhark, qui avait eu la gentillesse de reprendre celles du mois dernier. Je vous invite à lire le détail chez lui.


Je vais vous proposer encore un peu de maths et de technique, pour vous expliquer une autre modif, beaucoup plus mineure, celle-là, mais puisque j'ai promis de tout vous dire, vous allez devoir maintenant me supporter ! Vous vous souvenez peut-être que quand j'ai pris le dossier en main, les liens étaient comptés avec un poids de 1 pendant 4 mois et puis tout d'un coup au bout de cette période ils n'étaient plus comptés du tout, c'est-à-dire prenaient un poids de 0. Il en résultait des "Wikio Dances" pas très souhaitables. Car s'il faut du mouvement, comme cela a été dit maintes fois en commentaires, il ne faut pas non plus que ça ressemble à du mouvement brownien (surtout dans les profondeurs du classement). Pressé par le temps, j'avais fait implémenter une rustine, qui consistait à donner aux liens un poids décroissant de façon linéaire sur 9 mois. Pas génial.

Une approche plus propre consiste à utiliser, là aussi, une décroissance exponentielle, une fonction décidément bien utile, qui peut servir à modéliser toutes les situations où une quantité décroît d'un taux proportionnel à sa valeur. On peut imaginer bien des façons pour les liens de perdre de leur force dans le temps, mais la façon qui me séduit le plus est celle-là. C'est aussi celle des éléments radioactifs (à propos de fuites...) Vous avez sans doute entendu parler de période radioactive ou de demi-vie. C'est le temps qu'il faut pour pour que la moitié des atomes d'un isotope radioactif se désintègre naturellement. Et plus elle longue, plus c'est embêtant dans le cas des déchets... Pour le krypton (allô, Superman ?) c'est 11 ans, pour le thorium plusieurs milliards d'années (mieux vaut ne pas en avoir trop dans sa cave !).

Pour les liens j'ai choisi deux mois. On pourrait bien sûr discuter de ce choix, et on pourra l'ajuster. Le premier mois, un lien vaut 1, le mois suivant 0,707 (à peu près : c'est la racine carée de 1/2...), le troisième mois (qui correspond à la demi-vie) 0,5 et ainsi de suite. Attention, contrairement à ce qu'on croît souvent la radioactivité ne disparaît pas au bout de deux fois la demi-vie ! Au bout de 22 ans vous aurez toujours du krypton, mais la moitié de la moitié. Et ainsi de suite... La courbe est la suivante :


Au bout de quatre mois, il reste 0,25, et après c'est vrai qu'il ne reste plus grand chose, mais un petit peu tout de même et ça suffit pour faire la différence pour des blogs qui sont quasi orphelins dans les profondeurs du classement. N'oublions pas que ce sont les valeurs relatives qui comptent, et donc celui qui a un vieux lien qui vaut 0,04 passe devant celui qui a un lien encore plus vieux qui vaut 0,03. Mais en aucun cas ils ne sont en compétition avec des blogs qui ont des liens "frais". C'est voulu, comme ça tout le monde a sa chance et le classement nous permet de faire des découvertes. Sinon ce serait ennuyeux comme la pluie (radioactive ?).

Le classement sera publié lundi. Il y a plein de bonnes surprises... Évidemment ce blog monte comme une flèche (entrée dans le top 10). Ça ne me plaît qu'à moitié parce que les mauvaises langues vont sûrement dire que je règle les paramètres pour me faire monter, ce qui n'est pas le cas. Mais bon. La caravane passe. Vous n'aviez qu'à pas me lier comme des malades. Mon billet sur la naissance de Wikio Labs a été le plus lié de septembre, toutes catégories confondues, et j'ai l'impression que celui sur les "entrailles du classement Wikio" a atteint des sommets en octobre aussi... La preuve que ça vous intéresse, quand même, vous ne feriez pas ça juste pour me faire plaisir ?

Sur ce, mon cheval m'attend. Un peu de détente me fera du bien !

No comments:

Post a Comment