NOFOLLOW contre le spam : traduction geek/neuneu

A la demande de Cyrille, je vais tenter une traduction de mon billet de geek sur l'anti-spam de commentaires pour les non comprenants, aussi appelés "neuneux". Ca ne va pas être facile, il va rester des petits morceaux de geekerie qui craquent sous la dent. Je tiens donc à préciser que j'ai ajouté des morceaux d'humour dedans pour adoucir tout ça*.

Je vais commencer par introduire un concept à la base du classement des résultats dans Google : le PageRank™ (PR). Google attribue un poids à toutes les pages qu'il indexe dans son moteur de recherche. Ce poids est calculé par un algorithme de geek très compliqué que je ne m'aventurerai pas à expliquer aux blondes, mais ça n'a pas d'importance. Retenez juste que plus une page a un PR élevé, donc plus elle est lourde, plus elle monte dans les résultats (c'est contre-intuitif, mais c'est normal, c'est un truc de geeks). Le summum est d'avoir un PR de 10, qui vous assure pratiquement d'être le premier résultat (sinon dans la première page) d'une recherche sur les bons mots-clés. Le moyen honnête d'avoir un bon PR est de publier du bon contenu intéressant ce qui a deux effets : Google va indexer ce contenu et en extraire des mots-clés mais, surtout, d'autres personnes vont faire des liens qui pointent vers ce contenu. C'est là qu'intervient une notion importante utilisée par les moteurs de recherche : si des gens pointent vers une page, c'est que son contenu doit être intéressant. Et comme les geeks de Standford qui ont créé Google sont la crème de l'élite, ils ont aussi décrété que si des gens influents pointent vers une page, c'est que ladite page doit être vraiment intéressante. En langage de geek, ça s'appelle le transfert de PR, et ça signifie que Google regarde le poids des pages qui pointent vers une autre page pour pondérer le poids de la destination. Si quelqu'un avec un PR de 10 pointe vers une de vos pages, le PR de celle-ci va augmenter beaucoup plus que si une ribambelle de sites avec un PR de 1 (donc sans importance, selon Google) font la même chose.

Les spammeurs ont besoin de trafic vers leurs sites pour attraper les gogos. Si vous avez un peu regardé vos statistiques, vous devriez constater, si vous avez assez de contenu depuis suffisamment de temps pour être indexé, qu'une partie importante de votre trafic provient des moteurs de recherche (Google en tête). C'est dans la nature de l'internaute (qu'il soit geek ou neuneu) de chercher sur internet, et c'est bien. Alors les spammeurs font tout ce qu'ils peuvent pour que leurs sites apparaissent le plus haut possible dans les résultats des moteurs de recherche, et comme ils n'ont pas vraiment la possibilité d'y arriver en publiant du bon contenu tellement intelligent que tout le monde ferait des liens dessus, ils ont trouvé un moyen de tromper Google et consorts en plaçant des liens partout où ils le peuvent, notamment via les commentaires et les TrackBacks des blogs. Ce faisant, ils augmentent le poids de leurs sites en "pompant" celui des pages qu'ils spamment. Et voilà pourquoi les spammeurs innondent les blogs, wikis, forums et toute place publique, par effet de masse, ils augmentent le PR de leurs sites et obtiennent de bons placements dans les résultats de recherche.

Google, Yahoo! et MSN Search (sous la pression des blogueurs et des éditeurs de blogs à mon avis) se sont finalement décidé à se mettre d'accord pour trouver une parade à ce petit jeu. En modifiant légèrement la façon de faire un lien, on peut désormais dire à ces moteurs de recherche de ne pas tenir compte du poids de la page source (qui porte le lien) pour calculer celui de la page liée. De ce fait, et à condition que cette méthode soit généralisée partout où des spammeurs peuvent venir décharger leurs ordures, ce petit jeu de spam va perdre tout son intérêt, et les sites des spammeurs vont retourner bien au fond dans les moteurs de recherche.

Maintenant, pour expliquer comment faire sans parler geek, je ne vois pas, mais essayons avec un exemple :

1. 20/20. Peut mieux faire !
2. 20/20. Peut mieux faire !

A première vue, les deux liens ci-dessus sont identiques. Mais pour les moteurs de recherche, désormais, seul le premier a une chance d'augmenter le poids de la page d'accueil du site de Cyrille, grâce au poids considérable du padawan bien sûr ;-). Le second n'apportera rien en terme de poids, car les moteurs vont l'ignorer.

Quelle est la différence entre ces deux liens ? Là, je prie les neuneux de m'excuser et les blondes de détourner les yeux, parce que je vais dévoiler du code HTML tout nu devant vous pour tenter de vous montrer à quoi ressemble un lien hypertexte dans le code :

1. <a href="http://cdelasteyrie.typepad.com/sidiese/">20/20. Peut mieux faire !</a>
2. <a href="http://cdelasteyrie.typepad.com/sidiese/" rel="nofollow">20/20. Peut mieux faire !</a>

La différence, c'est ce petit bout de code (que les geeks appellent un attribut) : rel="nofollow" et qui dit "no follow", ne pas suivre en glish.

Pour finir, la nature étant bien faite, tous les neuneux étant sur TypePad et toutes les blondes sur ViaBloga, ces belles plateformes ont déjà fait le travail pour vous (pour les liens externes ajoutés par d'autres que vous dans les commentaires et les rétroliens), vous n'avez pas à mettre les mains dans le cambouis. Maintenant, pour les vrais blogueurs, les geeks de chez geeks qui en ont (pouf pouf), ils devront le faire à la mimine ou bien installer une extension dans leur logiciel qui le fera automatiquement (parce que c'est bien connu, les geeks sont des paresseux).

Notre ami Matoo demande si les spammeurs ne cherchent pas non plus à ce que les gens cliquent sur les liens. Les spammeurs neuneux peut-être, mais est-ce que vous cliquez sur ces liens vous ? Ah, vous avez besoin de Viagra ? Ca peut arriver à tout le monde, alors le lien est utile dans ce cas, non ? Sérieusement, peut-être que c'est le cas pour certains, mais ils vont devoir être plus créatifs dans leur prose pour tromper le chaland afin qu'il clique. Et ce faisant, les systèmes anti-spam classiques qui existent pour le courriel et qui sont basés sur (attention grosse geekerie !) l'apprentissage automatique et les filtres bayesiens (Apple Mail, Mozilla Thunderbird, MT-Blacklist et autres sont basés là dessus) vont devenir des compléments efficaces contre ce type de spam.

Voilà, j'espère que Cyrille a compris, j'attends la note !

(*) donc, traduit pour les blondes et les neuneux, ça veut dire que je n'ai absolument rien contre les blondes et les neuneux ;-). Si vous êtes blonde, remplacez par neuneu, et réciproquement. Si vous êtes blonde et neuneu, là c'est une autre histoire...

13 Trackbacks

L'information s'était déjà diffusée [Simon Willison], et vient juste d'être officialisée [sur le blogue de Google : Preventing comment spam] : le nouvel attribut rel="nofollow" va être soutenu par les prin... Lire la suite

DotClear supporte le nofollow. Lire la suite

Waou ! Quelle explication ! padawan.info/fr | webloguue : NOFOLLOW contre le spam : traduction geek/neuneu Lire la suite

Les liens dot�s de l'attribut nofollow ne seront plus suivis par Google. Lire la suite

Google, MSN, et Yahoo, ainsi que les principaux fournisseurs d'outils de blogging, viennent de se mettre d'accord sur l'utilisation d'une balise spécifique pour lutter contre le comment-spamming. Même si la mesure me parait peut-être un peu brutale,... Lire la suite

no follow : une non-solution contre le spam de commentaires depuis Stéphane Le Solliec - vers l'Internet et au delà !!! sur 21 janvier 2005 0h18

Le no-follow, c'est rajouter l'attribut rel= Lire la suite

Gloria Magnificat depuis log - mee2.net sur 21 janvier 2005 19h07

Ces derniers jours est apparue la r�volution de ce nouveau mill�naire, celle qui va r�volutionner Internet de fond en comble. Oui, je veux bien �videmment parler du fantastique attribut rel="nofollow", qui, mine de rien, est la solution � tout... Lire la suite

Nofollow depuis Ludovic's weblog sur 21 janvier 2005 19h21

Je viens de mettre en oeuvre le plugin nofollow pour movabletype afin de combattre le spam qui arrive sur ce blog. Les utilisateurs de dotclear trouverons leur bonheur l�. Pour en savoir plus sur le nofollow c'est l�... Lire la suite

Avec toute la pol�mique qui a suivi l'annonce du rel="nofollow" de Google, puis de Yahoo et MSN Search, il y'a eu beaucoup d'avis diff�rents : Certains comme Fran�ois sont plut�t pour D'autres comme Laurent-Denis ont l'air plut�t contre... Lire la suite

No Spam here !! depuis Comme la lune sur la branche sur 25 janvier 2005 12h47

Ces derniers jours, la nouvelle a fait le tour de la blogoph�re... Lire la suite

Google, MSN et Yahoo freinent le r�f�rencement via les liens de trackbacks pour bloquer la prolif�ration du spam. Une initiative qui risque de limiter le poids des blogs dans l'univers des moteurs de recherche. Lire la suite

L'information s'était déjà diffusée [Simon Willison], et vient juste d'être officialisée [sur le blogue de Google : Preventing comment spam] : le nouvel attribut rel="nofollow" va être soutenu par les prin... Lire la suite

Twitt! depuis padawan.info/fr sur 26 juillet 2007 8h55

Scoop, Microsoft fait travailler des cantatrices ! J'aime aussi beaucoup celle-là, d'autant plus qu'il m'a fallu moins de dix minutes pour dégommer MS SharePoint au profit d'un vrai wiki chez un client, alors que son service informatique avait déjà pri... Lire la suite

28 commentaires

instructif, et très clair...
En 48h Cyril est devenu le nombril de la french blogosphère... ça c'est moins clair ! mort de rire.

nico

Remarquable de clarté !

Dans la dernière phrase du deuxième paragraphe, à la place de :

>Si quelqu'un avec un PR de 10 pointe vers une de vos pages, son PR va augmenter beaucoup plus...

J'aurai écrit :

>Si quelqu'un avec un PR de 10 pointe vers une de vos pages, le PR de votre page va augmenter beaucoup plus...

HTH les blondes et les neuneus

Jacques > effectivement, rien à faire. C'est bien pour ça aussi les services hébergés.

Laurent > tu as raison, je corrige, en plus si ça les tente, ce n'est qu'à un clic de chez Pierre :-)

François > bien vu, j'ai corrigé.

Tu vois quand tu veux !!!
P'tain... Chuis crevé mais je crois que j'ai pigé !
Et en plus je suis blond en plus d'être neuneu.

Tu aurais dû raconter ça hier soir, c'est mortel !

Pour préciser les explications littéraires de Padawan à ceux qui préfèrent les formules , à propos du PR.
Le PR d'une page X (PRx) vers laquelle renvoient les pages A, B, C, .... est en gros
PRx = (1-d)+ d (PRa/NLa + PRb/NLb + PRc/NLc + ...)
ou d est un coeff d'amortissement que Google prend et en gros égal à 0,85
ou NLi est le nombre de liens sortants de la page i

Je suis mi-geek, mi-neuneu et pas du tout blonde.
Mais si je comprends bien, ça ne sert plus à rien de poster des commentaires de blonde pour augmenter mon Google Rank! :( triste... ;)

oops !

Recommenceriez-vous en Français pour les rousses ?

faut quand même remercier Cyrille.. Il a toujours des adresses sympa à nous communiquer..

Très clair, très sympa, la technique... Quel dommage que les spammeurs s'en contrefichent...
Sur mon blog, j'ai deux mesures anti-spam : l'élimination de toute balise HTML + une blacklist.
Hé ben les comment spams arrivent quand même. Ils sont sans aucun effet, puisque les liens sont virés, et que donc le PR ne bouge pas.
Alors, le "nofollow"... Je pense que malheureusement les spammeurs continueront de balancer leurs bidules, partout, sans distingo, en espérant tomber sur un blog non protégé.
Comme un bombardement massif, en fait. On envoie un max de bombes en espérant toucher une cible. La loi des grands nombres.

Meuh non, j'suis pas pessimiste, enfin.

Bruno, les spammeurs ne vont pas arrêter du jour au lendemain, mais ils attaquent les blogs en masse parce que ça marche. Quand leurs actions ne serviront à rien, ils se concentreront dans les endroits où ça marche encore.

Je crains que cette option, soit surtout néfaste pour les blogs eux même. Les spammeurs ciblent des blogs avec un pageRank élevé, non pas pour augmenter leur propre pageRank car de toute façon leurs sites ont une durée de vie très limitée mais tout simplement pour toucher un maximum de lecteurs. Cette option ne devrait donc avoir aucun effet sur le spam des blogs. Etre indexé par Google ou pas, les spammeurs s’en fichent. Ce qui les intéressent c’est de toucher un maximum de lecteurs et ils le pourront toujours en spammant les blogs avec un pageRank élevé.

A l’inverse, les blogs eux vont réellement souffrir de cette initiative en perdant une grande part de visibilité dans les moteurs de recherche car ceux qui commentent le plus, ce sont les bloggers eux-mêmes.

L’ajout d’un contrôle, reposant sur un cryptogramme visuel unique par billet pour autoriser les commentaires et les trackbacks serait beaucoup plus utile et bloquerait tous les robots de spam.

D'autres blogs utilisent cette technique : exemple

Bien sûr, ça ne bloquerait pas les spammeurs occasionnels qui font la manip manuellement mais ceux-là sont gérables et ça les occuperait. Pendant ce temps là, ils ne feraient pas d’autres bêtises :-)

Bravo Padawan ! Très clair et sympa à lire en même temps....;o)
> Pierre, ta formule "PRx = (1-d)+ d (PRa/NLa + PRb/NLb + PRc/NLc + ...", magique ! ;o) Bravo !Respect !

Y-en a que pour elles ! Voila qui va donner l'envie d'etre blonde a toutes les pouffes-pouffes.

nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow
nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow
nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow
nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow nofollow

ah d'accord!

mais euh...comment on fait si on est un neuneu pas hébergé par une magnifique plateforme?

Notez aussi que cet attribut favorise le référencement de vos pages car GoogleBot ne va pas fouiner partout et reste sur votre site! :)

jeanlouis.pouget@orange-ftgroup.com

Je veux être considéré comme tel, un spammeur

Monsieur Pouget, tout ce que vous allez gagner en ayant ainsi publié votre email directement, c'est de le voir repris par des spammeurs. Loin d'être un spammeur, vous vous exposez à eux. Je trouve ça idiot, mais si c'est ce que vous voulez...

les spammeurs ne vont pas arrêter du jour au lendemain, mais ils attaquent les blogs en masse parce que ça marche. Quand leurs actions ne serviront à rien, ils se concentreront dans les endroits où ça marche encore.

[NdA : et si vous alliez vous-même explorer d'autres endroits ? Parce qu'ici le spam de commentaire, ça marche pas trop bien.]

Janvier 2005 ?! C'est probablement le plus vieux blog que j'ai croisé qui parle du nofollow :)

[NdA : mais vous vous n'êtes pas le plus vieux spammeur que j'ai croisé ici. Lien commercial retiré.]

Laisser un commentaire

En laissant un commentaire, vous acceptez la politique des commentaires de ce blog.

Archives mensuelles

Notes récentes