Showing posts with label Blogs. Show all posts
Showing posts with label Blogs. Show all posts

Wednesday, June 10, 2009

Write What You Know

I don’t think I read agent blogs as religiously as many of you do, but I do try to keep up-to-date on what my colleagues are writing and saying, and one of the things I love is that in a weird, blog-like way, I feel we’ve developed our own little community. We often have very different things to say, and then there’s the occasion when one of us posts something the other had fully intended to post at some point that week, or when we post similar things on the same day. I have to tell you that as of yet, none of this has been planned.

The reason for this post is that something I’ve really learned while writing the blog is that I can only write what I write. I couldn’t write Nathan’s blog or Janet’s blog because they have their own unique voices and styles and the subjects they cover are uniquely theirs. Frequently I’m asked to write posts on certain subjects or why I don’t give my opinion on things, and sometimes, frankly, it’s because I have nothing to say. At other times, I’ll start writing a post and realize I’m boring myself. Instead of “post” I’ll hit “delete.”

If blogging were my job and not something I did in my spare time (often nights and weekends) I know I could push myself to make those boring topics more exciting or to post on things that don’t thrill me, but it’s not. Blogging is my hobby, which means I only have to write what I want to write.

So what’s the point of this? I’m not really sure. Ever have those days? I think, though, that it’s to say we all have to accept the certain limitations we have when it comes to what we do and we can’t look at the success of what others are doing and decide we need to be doing that. While I greatly admire bloggers like Agent Kristin, I can’t decide that’s how I’m going to write or that’s what I’m going to write. I can only be me, and while I can and should certainly push myself to be the best me possible, I still, no matter what, have to be me. And I think, more than anything, that’s what it means to write what you know. That you need to write what is you and not what everyone else is writing or write something just because it’s hot.

Jessica

Thursday, April 30, 2009

Blogs: Les écrivains dont on parle le plus

Mes petits nuages sur le vocabulaire des blogs Wikio semblent avoir eu du succès... Notamment pour les blogs littéraires chez Romans et Lectures, qui regrette toutefois qu'on ne voie pas les auteurs... Évidemment, mélangés à des mots hyper fréquents comme livre ou roman, ils n'apparaissent pas dans le nuage (ou alors éclatés en deux morceaux séparés, prénom + nom).

Ca m'a titillé. Voici donc le nuage des 100 écrivains les plus cités par les blogs du top littérature Wikio (toujours grâce à Wordle) :


Cliquez pour voir en grand (pdf)
(Vous pouvez copier librement cette image)


Paul Auster et Jane Austen se détachent franchement. Peut-être à cause de la traduction de Man in the Dark pour le premier (Seul dans le noir, Actes Sud 2009), et pour le nouveau roman de la seconde, Pride and Prejudice. Non, je rigole. C'est à cause du Challenge Jane Austen lancé par Happy Few il y a quelque temps, et qui a eu pas mal de succès — un truc de filles encore, comme quoi elles ne font pas que tricoter (pendant que les garçons continuent à se tripoter l'iPhone...).

Comment ça marche ? J'ai fait tourner mon détecteur d'entités nommées (un mot savant pour les noms propres) sur les blogs Wikio, et j'ai croisé le résultat avec mes bases de données. Il se trouve que j'avais justement une base d'écrivains, donc ça s'est fait en quelques clics... Du tout automatique : mes outils ne marchent pas mal (dit-il modestement), mais on sait jamais. Si vous voyez qu'un OVNI (objet virtuel non identifié) s'est glissé dans la liste, faites-moi signe, je sortirai le Tippex !

Monday, April 27, 2009

Web: De quoi parlent les blogs ?

De quoi parle ce nouveau "continent" des blogs de loisirs créatifs qui semble littéralement exploser la blogosphère ces derniers temps ? Pour le savoir, j'ai mouliné avec l'aide de Thomas (développeur chez Wikio, avec qui c'est un grand plaisir de travailler !) les 100 premiers blogs de la catégorie Loisirs, et j'ai injecté tous les mots dans la superbe application Wordle, que vous connaissez certainement. Voilà le résultat :


Je l'offre en hommage à nos fières tricoteuses ! Le mot le plus utilisé est printemps. Joli, non? Maman, bébé, enfants, créations, que du bonheur. Est-ce que vous vous y retrouvez, les filles ?

Et quel contraste avec la blogosphère high-tech. Là, les mecs (le plus souvent) parlent de Google, d'iPhone, de Twitter... Bon, la différenciation culturelle des sexes, ce n'est pas encore fini ! Papa bricole (sur Internet, désormais), maman tricote (sur Internet aussi : finalement, c'est ce qui les rapproche !).


Et pour vous faire patienter pendant que vous vous rongez les ongles en attendant le prochain classement (non ?), voici le monde lexical de chacune des 15 catégories de blogs sur Wikio (cliquez sur l'image).


N'hésitez pas à copier et utiliser les images à votre guise (un p'tit lien de reconnaissance serait sympa). Et si vous voulez vous même jouer avec Wordle, et créer vos propres nuages, vous pouvez télécharger les données ici (chaque fichier contient deux colonnes, mot:fréquence — attention il faut utiliser http://www.wordle.net/advanced).

Bonnes créations et bonne promenade dans les nuages !

Friday, March 27, 2009

Wikio: 100 000 blogs

J'ai mis au point de nouveaux algorithmes de sourcing, et mes CPU ont quelque peu contribué à réchauffer la planète ces derniers-temps... mais le résultat est là : Wikio vient de dépasser la barre des 100 000 blogs en français. 107 785 très exactement ce matin (mais ça augmente régulièrement), et 116 642 sources au total avec les médias [màj: 122105 blogs et 131020 sources au 29/03]. Ceci correspond quasiment à un doublement par rapport au début de l'année (55 000 blogs en janvier). L'effet va en être extrêmement positif : plus de backlinks (au moment où les widgets vont sortir ça tombe bien), plus de discussions sur la page Blogs (elles se forment grâce aux backlinks), un classement plus représentatif... Bref que du bon.


D'ailleurs, le classement approche, et j'entends des dents qui claquent d'angoisse dans les chaumières 2.0 comme chaque mois. Eh bien, je peux vous donner un scoop : ça va décoiffer. Il y avait eu, comment dirais-je, une certaine installation dans les habitudes, même si depuis mon arrivée, le classement a gagné énormément en renouvellement et en fluidité. Comme vous l'avez vu, grâce aux nouveaux algos, des blogs inconnus peuvent apparaître directement dans le top 100 (je pense au blog de Julie qui s'est retrouvé dans le top 20 ou 30 si je me souviens bien au mois de décembre, ce qui m'a comblé de joie). D'autres peuvent se prendre de belles gamelles, comme celui-ci. Après être monté au top 10 quand vous m'avez lié comme des malades en octobre, je n'ai plus guère écrit, vous ne m'avez plus guère cité et pof, je sors ce mois-ci du top 100. Plutôt bien : ça montre que les algos ont l'effet voulu. Enfin, on va voir. Nous ne sommes que le 27, si vous vous déchainez d'ici le 31 je peux encore remonter...

Mais les dents qui claquent risquent de devenir des dents qui grincent. Nous avions pris l'habitude que la high-tech truste une bonne partie du top 100. Certains, un peu acides, parlaient même d'une "blogeoisie" qui serait devenue indéboulonnable. C'est en train de changer. D'une part, certaines "stars" commencent à se fatiguer. Certains jettent l'éponge purement et simplement... Et les autres passent tellement de temps sur Twitter qu'il écrivent moins, linkent moins, commentent moins (je ne plaisante pas : le phénomène est très visible).

Mes nouveaux algos ont permis de donner une vision plus juste de la blogosphère francophone. Il fallait aller chercher les blogs là où ils sont, et ils forment souvent un univers disjoint du précédent. Les blogosphères high-tech et politique par exemple s'autolient. Elles envoient très peu (voire jamais) de liens vers d'autres univers. Ce sont justement ces nouveaux univers qui ont entrés dans Wikio, en particulier le domaine des loisirs créatifs (Scrapbooking ou autre). Je suis sûr que ça ne va pas plaire à certains, qui vont voir d'un œil condescendant l'arrivée de ces thèmes "triviaux" dans la cour des grands. Pourtant, la blogosphère est comme ça. Je ne vais pas fausser mon thermomètre pour donner la température que les gens attendent !

Voici le changement de proportions des thèmes dans le top 100 entre octobre (figure du haut) et avril (figure du bas) -- les détails peuvent changer un poil d'ici le 31.


Octobre 2008


Avril 2009


Ce gros pavé rouge (Divers) m'ennuie. Il constitue une sorte de purgatoire dans lequel il y a des blogs de toutes sortes, qui devraient pour certains faire l'objet de nouvelles thématiques, et pour d'autres rejoindre simplement les catégories existantes. Mais il y en a beaucoup, c'est difficile, ça demande du travail manuel... J'espère pouvoir en faire l'objet d'un très prochain chantier.

Monday, February 9, 2009

Outil: Backlink factory

En attendant les widgets dont je vous ai parlé ici, voici un outil qui va sûrement vous intéresser car il vous dévoilera exactement ce que Wikio a dans le ventre. Les Wikio Labs continuent tranquillement leur chemin, dans la perspective d'ouverture que Pierre Chappaz et moi-même avons souhaité initier (et déjà mise en application ici).

Voici donc la Backlink factory, qui vous permettra de savoir si un blog est connu de Wikio ou pas, et surtout quels sont les liens entrants et sortants pour telle ou telle source. Vous pourrez ainsi savoir qui vous a le plus cité récemment, qui vous avez le plus cité, et même connaître les liens entrants ou sortants article par article.

Je vous laisse naviguer de blog en blog : je suis sûr que vous allez faire d'intéressantes découvertes.

Je suis sûr aussi que vous allez découvrir des bugs, des sources qui manquent (signalez-les à info@wikio.fr !). Bien entendu, nombre d'entre vous vont s'en servir pour vérifier l'egomètre mensuel... Attention, cependant :

1. Le nombre de liens ne donne pas exactement le classement (c'est largement expliqué ici, ici et ici).

2. Il a été dit et redit que Wikio ne prend en compte que les liens qui apparaissent dans les flux RSS. C'est dommage, certes, mais c'est pour l'instant la règle du jeu. Personne ne sait faire autrement, même pas Google ou Technorati, qui crawlent la totalité des pages et récupèrent un bruit considérable (widgets, etc. -- voir ici).

Donc, soyez gentils, avant de signaler des backlinks qui manquent, regardez si la source les publie vraiment dans son flux RSS ;-) Mais pour le reste, n'hésitez pas à commenter ci-dessous (ou à m'envoyer un petit mail) si vous voyez des dysfonctionnements (soyez indulgents, c'est une version beta !), ou si vous voyez des pistes de développement et d'améliorations futures.

Comme nous le voyez, j'ai toujours la tête dans les nuages... et les pieds dans les outils ! Un grand merci à Thomas et à toute l'équipe de R&D qui m'a supporté --aux deux sens du terme-- sur ce projet.

Tuesday, December 16, 2008

Blogs: Que fait Google ?

Vous avez sans doute remarqué que le petit widget « Ils en parlent » en colonne de gauche de ce blog dysfonctionne depuis quelque temps.


Je m’étais fabriqué ce widget il y a bien longtemps déjà, à l’aide de l’opérateur link de Google Blogsearch (link:aixtal.blogspot.com). Cet opérateur permettait d’obtenir tous les billets d’autres blogs qui citaient un de mes billets. La sortie est disponible au format RSS, ce qui permet une intégration facile. C’est d’ailleurs le même mécanisme, basé sur Google Blogsearch) qui se trouve sous chacun des billets (l’appel billet par billet est fourni en standard par Blogger, contrairement au widget que j’ai fabriqué). Je trouvais cette fonctionnalité assez intéressante, puisqu’elle permettait de rebondir de blog en blog et de suivre les « conversations » que déclenche un post.

Malheureusement, le comportement a changé. Il y a eu quelques alertes en septembre, le comportement se modifiait, puis revenait à la normale, mais depuis le début octobre, c’est fini, Google Blogsearch est passé dans un autre mode de fonctionnement. Si vous suivez les liens qui apparaissent sur ce widget, ou directement sur Google Blogsearch, vous verrez que les billets listés, pour la plupart d’entre eux, n’ont pas de lien vers un des miens. Dans la plupart des cas, ce sont des blogrolls qui pointent vers ma home, « http://aixtal.blogspot.com ».

Et après, me direz-vous ? Eh bien cela enlève à peu près tout l’intérêt de cette fonction. Plus possible de suivre les « conversations » de billet à billet. Chaque fois que Pierre Assouline ou Language Log publient un nouveau billet, Google Blogsearch y voit un nouveau lien... L’intérêt est médiocre. Et évidemment, il ne faudrait pas s’appuyer sur les résultats chiffrés que retourne Google Blogsearch pour essayer de déterminer si votre blog a été beaucoup lié, car ces résultats n’ont rien à voir avec le vrai nombre de citations (2803 par exemple avait fait cette erreur – j’avais laissé un commentaire à l’époque).

Les effets de bord sont même encore plus désagréables. Je constate par exemple ce matin que le serpent se mord la queue. Ainsi, mon dernier billet « Déshabillons les communistes » semble avoir été cité par tout un tas de billets de French Politics. Ce n’est pas le cas... Le cercle est vicieux : un de ses widgets reprend les liens de mon widget, et ça tourne gentiment en rond.


Que s’est-il passé ? L’explication technique est simple. Auparavant, Google utilisait les flux RSS dans son service Blogsearch, ce qui lui permettait d’avoir une notion de billet. Désormais, il utilise simplement le mécanisme de crawl général ("full-text") de Google. Cela a été confirmé par Jeremy Hylton de l’équipe officielle de Google Blogsearch.

Quelles peuvent être les raisons de ce changement ? La raison avancée par Jeremy Hylton est tout à fait sérieuse : un certain nombre de blogs ne publient pas des flux complets, mais des résumés sans liens, et dans ce cas, Blogsearch devait donc faire face à du « silence ». Mais avec le nouveau comportement, le diable chassé par la porte est rentré par la fenêtre. C’est désormais un « bruit » important qui affecte les requêtes sur Blogsearch. Mon impression est d’ailleurs que le bruit introduit est largement plus grand que le silence qui a pu être réduit. Jeremy Hylton explique que le problème sera corrigé, en faisant d’abord une capture complète de la page, puis en ne retenant que la partie qui ne fait pas partie du billet.
We do expect to fix the problem you're seeing. We'll use the full page content, but exclude the content that isn't really part of the post.
Nous verrons. J’ai de gros doutes, connaissant bien le problème, que j’ai analysé en détail pour Wikio. La difficulté de la tâche est immense.

Le jeu valait-il alors la chandelle ? Il me semble qu’il y a une autre raison sous-jacente : la réduction des coûts liés à Blogsearch (ce qui me rend pessimiste sur l’amélioration promise). Fusionner Blogsearch (du moins du point de vue de la capture) avec le moteur de recherche Web classique permet de n’avoir plus qu’un service à maintenir au lieu de deux. Car la maintenance d’un vrai moteur de blogs est extrêmement difficile. Le problème des flux partiels n’est qu’une toute petite partie de l’iceberg. Parmi les problèmes d’une très grande difficulté, je n’en citerai qu’un : l’identification des sources... Qu’est-ce qu’un blog ? Je doute que nous soyons deux à répondre de la même manière à cette question. Mais en tout cas, à peu près tout le monde se trouvera sans doute d’accord pour exclure les médias classiques (Le Monde, Le Figaro) ou les agrégateurs qui fleurissent un peu partout sur la Toile. Comme faire, à part recruter une armée (coûteuse) de documentalistes qui filtrent les sources à l’échelle planétaire ? Google ne peut pas se le permettre.

Un autre indice montre que Google est en train d’opérer une convergence de ses services. Début octobre également (tiens ?), le blog officiel de Google présentait une nouvelle fonctionnalité, le groupage (clustering) des billets apparentés sur sa home page, du moins aux US. La technologie est directement reprise du groupage que fait Google News. La nouvelle a été reprise en boucle sur la blogosphère, et généralement perçue comme une innovation positive.

Je n’ai pas la même analyse. Si vous examinez de façon détaillée ce qui apparaît dans les groupes en question, vous verrez que ce sont des informations qui sont fortement apparentées du point de vue thématique, et fortement cohérentes du point de vue temporel (généralement une durée de quelques heures). Ce n’est pas le tempo des blogs. Ce type de groupage favorise les pics d’articles nombreux, très proches dans leur contenu, et quasi simultanés – c’est-à-dire, typiquement la reprise en boucle des infos des agences de presse. On y retrouve donc soit des blogs sans grande originalité, qui se contentent de copiés-collés rapides, soit des agrégateurs, soit des médias purs et simples. Les blogueurs qui apportent une véritable valeur ajoutée réagissent plus lentement, et forcément dans des termes moins proches de l’original. Trop tard, trop différents pour être groupés...

Là aussi, j’ai étudié de près le problème, puisque c’est le mode fonctionnement de la partie supérieure de la page d’accueil de Wikio. Il n’y a rien dans l’algorithme actuel qui favorise explicitement les médias par rapport aux blogs, et pourtant on n’y trouve guère que des médias, pour les raisons que je viens d’expliquer. C’est d’ailleurs un problème sur lequel Wikio va travailler (et ce n’est pas facile), car la première partie de la home ressemble à l’AFP ou à France Info, ce qui est d’un intérêt modéré...



Nous verrons bien comment Google Blogsearch évolue. Mais j’ai bien peur que la fusion en cours s’accompagne d’une perte assez forte de la spécificité de la recherche blogs. Est-ce que Google aurait lu en détail le rapport Technorati, et en aurait conclu que les blogs étaient en déclin et que l’investissement ne valait plus le coup ? Il est vrai qu’il est peut-être plus à la mode de mettre des billes dans les réseaux sociaux (où Google avait peut-être un petit cran de retard)...

A suivre. En tout cas, je suis bon pour refaire mes widgets. Ce sera l’occasion de tester si un tel service peut-être greffé sur Wikio...

Mise à jour


Ca y est, j'ai implémenté une petite maquette d'outil, que vous pouvez voir en colonne de gauche et sous les posts. Enfin, pas sous celui-ci, hélas, il s'est fait blacklister par Wikio sous prétexte qu'il contient "AFP". Pas bon, ça. Ca fait partie des choses à arranger...

Tuesday, November 25, 2008

Blogs: Une fille dans le top 10 ?

Le prochain classement Wikio se prépare. Il n'y aura pas de changement dans l'algo : je crois que nous avons trouvé une version stable, qui permet un bon renouvellement en fonction des tendances et de l'actu. Et devinez quoi : une fille entrera probablement dans le top 10 ! Je suis sûr que ça va faire plaisir à Olympe et à quelques autres. Evidemment, c'est sous réserve : il peut encore se passer des choses en cinq jours, mais je suis absolument ravi de voir que la machosphère se dégonfle quelque peu.

A vous de deviner qui ça peut-être. Je ne dirai rien.




Un indice, quand même : ce n'est pas Julie. Je suis vraiment ému de voir la solidarité qui a entouré cette maman "travailleuse pauvre" et SDF avec deux enfants (voir article du Monde) : elle entre directement dans le top 50. C'est grâce à vous, grâce à vos liens.

Voilà qui illumine ma journée...

Mise à jour du 3/12


Vous avez été nombreux à le deviner: c'est la géniale Pénélope Jolicoeur que vous avez propulsée 3e au classement général. Elle le mérite amplement, à la fois pour ses dessins, et pour sa générosite (cf. opération Mon Beau Sapin)

Friday, October 31, 2008

Blogs: Fuites et liens radioactifs

Voilà, le classement d'octobre est quasiment bouclé... J'ai continué à améliorer l'algo, de façon à prendre en compte vos remarques et commentaires. La modification principale concerne la prise en compte des liens vers la page d'accueil (la "home") des blogs, alors que Wikio prenait en compte jusqu'ici seulement les liens de billet à billet (je l'évoquais ici). Le résultat est vraiment intéressant. On voit sortir des profondeurs du classement tout un tas de blogs nouveaux qui valent la peine d'être découverts, et en particulier des "blogs de filles", qui entrent nombreuses dans le top 100 (je suis sûr qu'Olympe va être contente que le "plafond de verre" se craquelle et que la "machosphère" régresse un peu. Manifestement le nouvel algo fait émerger de nouvelles communautés qui ont tendance à lier les blogs (donc les personnes), plutôt que les infos (comme ont tendance à faire les geeks). C’est un peu l’aspect “réseau social”, je présume. Du coup la part des blogs high tech dans le top 100 diminue, et c'est aussi bien ! J'ai produit quelques stats, mais j'en ai laissé l'exclu à Mr. Xhark, qui avait eu la gentillesse de reprendre celles du mois dernier. Je vous invite à lire le détail chez lui.


Je vais vous proposer encore un peu de maths et de technique, pour vous expliquer une autre modif, beaucoup plus mineure, celle-là, mais puisque j'ai promis de tout vous dire, vous allez devoir maintenant me supporter ! Vous vous souvenez peut-être que quand j'ai pris le dossier en main, les liens étaient comptés avec un poids de 1 pendant 4 mois et puis tout d'un coup au bout de cette période ils n'étaient plus comptés du tout, c'est-à-dire prenaient un poids de 0. Il en résultait des "Wikio Dances" pas très souhaitables. Car s'il faut du mouvement, comme cela a été dit maintes fois en commentaires, il ne faut pas non plus que ça ressemble à du mouvement brownien (surtout dans les profondeurs du classement). Pressé par le temps, j'avais fait implémenter une rustine, qui consistait à donner aux liens un poids décroissant de façon linéaire sur 9 mois. Pas génial.

Une approche plus propre consiste à utiliser, là aussi, une décroissance exponentielle, une fonction décidément bien utile, qui peut servir à modéliser toutes les situations où une quantité décroît d'un taux proportionnel à sa valeur. On peut imaginer bien des façons pour les liens de perdre de leur force dans le temps, mais la façon qui me séduit le plus est celle-là. C'est aussi celle des éléments radioactifs (à propos de fuites...) Vous avez sans doute entendu parler de période radioactive ou de demi-vie. C'est le temps qu'il faut pour pour que la moitié des atomes d'un isotope radioactif se désintègre naturellement. Et plus elle longue, plus c'est embêtant dans le cas des déchets... Pour le krypton (allô, Superman ?) c'est 11 ans, pour le thorium plusieurs milliards d'années (mieux vaut ne pas en avoir trop dans sa cave !).

Pour les liens j'ai choisi deux mois. On pourrait bien sûr discuter de ce choix, et on pourra l'ajuster. Le premier mois, un lien vaut 1, le mois suivant 0,707 (à peu près : c'est la racine carée de 1/2...), le troisième mois (qui correspond à la demi-vie) 0,5 et ainsi de suite. Attention, contrairement à ce qu'on croît souvent la radioactivité ne disparaît pas au bout de deux fois la demi-vie ! Au bout de 22 ans vous aurez toujours du krypton, mais la moitié de la moitié. Et ainsi de suite... La courbe est la suivante :


Au bout de quatre mois, il reste 0,25, et après c'est vrai qu'il ne reste plus grand chose, mais un petit peu tout de même et ça suffit pour faire la différence pour des blogs qui sont quasi orphelins dans les profondeurs du classement. N'oublions pas que ce sont les valeurs relatives qui comptent, et donc celui qui a un vieux lien qui vaut 0,04 passe devant celui qui a un lien encore plus vieux qui vaut 0,03. Mais en aucun cas ils ne sont en compétition avec des blogs qui ont des liens "frais". C'est voulu, comme ça tout le monde a sa chance et le classement nous permet de faire des découvertes. Sinon ce serait ennuyeux comme la pluie (radioactive ?).

Le classement sera publié lundi. Il y a plein de bonnes surprises... Évidemment ce blog monte comme une flèche (entrée dans le top 10). Ça ne me plaît qu'à moitié parce que les mauvaises langues vont sûrement dire que je règle les paramètres pour me faire monter, ce qui n'est pas le cas. Mais bon. La caravane passe. Vous n'aviez qu'à pas me lier comme des malades. Mon billet sur la naissance de Wikio Labs a été le plus lié de septembre, toutes catégories confondues, et j'ai l'impression que celui sur les "entrailles du classement Wikio" a atteint des sommets en octobre aussi... La preuve que ça vous intéresse, quand même, vous ne feriez pas ça juste pour me faire plaisir ?

Sur ce, mon cheval m'attend. Un peu de détente me fera du bien !