Le prisme Technorati et la réalité

David Sifry, patron de Technorati, vient de publier les derniers chiffres de la blogosphere. Loic Le Meur, actionnaire de Technorati, s'inquiète de la position du français dans tout ça (tiens, je note qu'il ne mentionne pas "l'oubli" de quelques 5,9M de skyblogs dans l'index de Technorati dans son billet en anglais).

Je crois que Loic-actionnaire devrait poser quelques questions à David Sifry. Pour ceux qui ne sont pas à l'aise avec l'anglais, mon argumentaire est le suivant :

  • Technorati est incapable de détecter automatiquement la langue d'un billet (tous les principaux moteurs de recherche savent le faire automatiquement, même la Google Mini qui coûte 2000 euros le fait) Ah si, ils s'y essayent avec languid, mais David Sifry dit lui-même que ça doit être amélioré.
  • Il faut suivre un processus long et compliqué pour déclarer la langue principale de son blog : 1) s'inscrire sur Technorati et remplir un profil, 2) déclarer son blog, 3) déclarer la "langue principale" du blog. Il y a plusieurs problèmes avec cette approche :
    • D'une part c'est manuel donc beaucoup ne le font pas,
    • c'est entièrement en anglais, donc exit ceux qui ne parlent pas la langue (c'est, comment dire, idiot très dommage quand on prétend vouloir donner des chiffres sur les langues étrangères de commencer à ne sonder que ceux qui parlent anglais,
    • ensuite ça ne fonctionne pas ! J'ai déclaré trois fois le français aujourd'hui, ma préférence n'est jamais prise en compte (bug ?),
    • et enfin ce choix implique qu'un blog n'a qu'une seule langue, donc out ceux qui bloguent en plusieurs langues.
    Pour info, c'est la raison principale qui fait que le dernier classement des 100 premiers blogs français fait par Technorati/Edelmann est complètement faux.
  • David Sifry admet lui-même que certains chiffres sont des intuitions personnelles, et qu'ils ne savent pas précisément séparer les blogs de spammers des autres.
  • Il y a un certain nombre de sites qui ne sont pas des blogs mais qui apparaissent dans l'index comme des blogs, avec classement et liens (la preuve, je me suis toujours demandé ce que site faisait là, et l'info de mise à jour est fausse).
  • A contrario, "l'oubli" de Skyblog élimine une part non négligeable de la francosphère (inutile de gloser sur la pertinence de leur contenu, c'est un critère qui n'a pas à entrer en ligne de compte pour Technorati).
  • Je pense que Technorati ne va pas au-delà de la page d'accueil des blogs indexés, du moins pour calculer les liens et le classement. Dommage quand on index des blogs, dont la majorité du contenu est dans leurs archives. J'aimerais qu'on me prouve le contraire.

Autant j'applaudis le travail que fait David avec ses rapports réguliers, et je respecte les gens de Technorati, autant je trouve qu'ils devraient faire un meilleur effort de transparence sur leurs méthodes. Il faut en permanence lire entre les lignes.

Il serait donc temps qu'on arrête de prendre ce qu'ils disent pour argent comptant, il y a à mon avis une sérieuse marge entre le prisme Technorati et la réalité.

11 commentaires

C'est vrai, quoi, je me fais suer à faire un blog rien qu'en français pour Laurent, et ces imbéciles d'amerloques ne le recensent pas. ;-)

PS pour skyblog: ce n'est pas vrai, il yen a un: celui de la devteam, je laisse les gens trouver l'url :-) Par contre il est pas à jour sur Technorati, je pige pas trop pourquoi...

Pour le reste... Patience... :) Par contre si il faut les pinger à chaque mise à jour, ca va pas trop le faire je pense...

Tu n'est pas seul: http://www.textually.org/textually/archives/2006/11/014013.htm

> Pour info, c'est la raison principale qui fait que
> le dernier classement des 100 premiers blogs
> français fait par Technorati/Edelmann est
> complètement faux.

C'est à mon avis très inquiétant... tous les classements d'"autorité" ou de "popularité" semble se baser sur Technorati qui est très vague sur la manière d'obtenir ses (faux) résultats.

Effectivement il ne s'agit pas de remettre en cause tout le travail de Technorati qui s'attaque là à un problème extrêmement difficile. Simplement de souligner des dysfonctionnements graves qui se répercutent plus loin et qui peuvent avoir des conséquences importantes!

François : en tant qu'utilisateur régulier de Technorati, et en lien avec leur équipe de développement je voulais juste rectifier une ou deux choses :

* L'"oubli" des Skyblog est dû à l'absence de flux RSS et de liens permanents sur les billets.
* Technorati va au delà de la page d'accueil des blogs indexés, même si j'avoue que ces résultats apparaissent parfois un mois ou deux après la publication du lien (jamais compris le fonctionnement de leurs spiders).

Enfin je te dirais que le principal (seul ?) intérêt de Technorati est de savoir qui parle de tel ou tel sujet à un moment donné, le reste (classement, liens entrants) n'étant évidemment que de la branlette d'ego (comme la majorité des blogs d'ailleurs, OK, j'avoue).

Mat : leur bots sont super à la bourre, ils ont trois semaines de retard sur le mien.

Je commente régulièrement les chiffres de Technorati http://www.groupereflect.net/blog/archives/2006/11/et_sil_y_avait.html
et cela fait un bon moment que ces stats sont contestées.
Elles l'étaient notamment à la précédente livraison du printemps dernier, parce-qu'elles ne prenaient pas en compte les blogs morts. Dorénavant, Technorati identifie ceux qui sont actifs au moins une fois par trimestre. peso, je trouve que c'est trop peu.
Maintenant, Technorati ne couvre qu'une partie de la blogosphère, c'estbun indicateur parmi d'autres et qui doit être pris comme tel. À ce titre, ses ratios sur les langues n'ont aucun intérêt puisqu'ils n'auraient de sens qu'avec l'indexation exhaustive de la blogosphère et pas uniquement des plateformes connotées US. Maintenant, il est sûr que ça renvoie un message et il est important de le critiquer.

@Frédéric : merci pour les précisions. La complétude de l'indexation des blogs est encore floue pour moi. Je connaissais l'excuse technique de Technorati pour ne pas "voir" Skyblog, et qui n'empêche pas les autres moteurs de recherche d'indexer cette plateforme. Ce qui compte c'est qu'en les ignorant, Technorati fait l'impasse sur, à la louche vu les chiffres qui circulent, pas loin de la moitié de la blogosphère française. Rien que ça, ça veut dire que leurs ratios sur les langues sont complètement faux.

@Alexis : en lisant ton billet je me faisait la réflexion que mon blog en anglais participe au poids de l'anglais, la langue, mais pas des anglosaxons (tu écris "les anglais") qui sont en fait minoritaires dans l'ensemble. Grosse nuance ;-).

En fait j'ai bien l'impression qu'en dehors de la page d'accueil des blogs déclarés et des contenus des flux Atom (de préférence) et RSS, leurs spiders n'explorent pas les sites (ou pas complètement). Quelqu'un de Technorati a répondu sur mon billet en anglais, pour confirmer en gros que s'il n'existe pas de moyen de "pinger" avec une URL (flux) correspondant à une mise à jour, ils sont incapables d'indexer Skyblog.

Laisser un commentaire

En laissant un commentaire, vous acceptez la politique des commentaires de ce blog.

Archives mensuelles

Notes récentes