Webspam: comment Google identifie la manipulation de documents web

3
Webspam: comment Google identifie la manipulation de documents web

En début de semaine, Matt Cutts nous a annoncé dans un billet qu’il a posté dans le blog officiel de google, que le moteur de recherche a apporté de nouvelles modifications à son algorithme de ranking afin de pénaliser (encore plus) les webspameurs.

In the next few days, we’re launching an important algorithm change targeted at webspam. The change will decrease rankings for sites that we believe are violating Google’s existing quality guidelines.

We’ve always targeted webspam in our rankings, and this algorithm represents another improvement in our efforts to reduce webspam and promote high quality content.

Le webspam et la manière dont les moteurs le traitent n’est pas chose facile, mais il n’en demeure pas moins que c’est un sujet passionnant et plein d’enseignements pour ceux qui, comme moi, se passionnent pour les évolutions du web en général et des moteurs de recherche en particulier.

Je voudrais parler dans ce post d’un (vieux) brevet  de GOOGLE déposé en 2007  par 2 ingénieurs de la firme de mountain view ( Henzinger Monika et Franz Alexander Mark) et qui traite du webspam et la manipulation de document web.

Définition du Webspam selon le brevet de Google

Voici la définition que Google donne du Webspam dans le brevet (je me suis permis d’en faire la traduction):

Un document manipulé peut être assimilé à du webspam. Quand un utilisateur reçoit un document manipulé dans les résultats de la recherche et clique sur le lien pour accéder au document manipulé, le document est très souvent une publicité pour des biens ou des services non liés à la requête de recherche ou un site Web pornographique ou le document manipulé redirige automatiquement l’utilisateur sur un site web sans rapport avec la requête de l’utilisateur.

Q: OK! on parle beaucoup de document manipulation, mais ça concerne quoi exactement?
R: Globalement, toute technique visant à modifier un document dans l’objectif de faire croire à Google que le document parle d’autre chose que ce dont il parle rééllement. C’est ce qui est considéré comme des techniques de manipulation.

Q: mmm, tu es gentil mais dans les faits, toutes les personnes faisant du SEO sont amenées à “manipuler” les moteurs de recherche, afin d’obtenir de meilleures positions…
R: Tant que vous ne faites pas de black hat ou toute autre techniques contraires aux guide lines de google, vous n’avez pas à vous en faire. Je tiens à rajouter que le SEO en soit (optimisation pour les moteurs de recherche) n’est pas considéré comme du Spam, ni une manière de manipuler Google. Le SEO sert à guider les moteurs pour leur faciliter le travail de crawl, d’indexation et de compréhension des sites web. D’ailleurs, Matt Cutts en parle dans cette vidéo

Voici quelques techniques que le brevet considère comme pouvant être considérées comme une manipulation de documents:

  • utiliser un nom de domaine pour un site non ligitime
  • placer de requêtes pupulaires partout dans le texte d’une page et dans les ancor-text des liens qui pointent vers le document manipulé
  • la création de liens automatiques depuis toutes les autres pages vers le document manipulé
  • faire du cloacking, c-a-d montrer une page différente selon le demandeur (moteur ou humain)

Detection des documents manipulés

Les “Cluster de pages”

Selon le brevet, une des manière de proceder de Google, est de créer un groupement de pages (appelé “cluster”) qui peuvent etre liées les unes avec les autres selon un certain nombre d’éléments en commun comme par exemple:

  • hebergement sur un même serveur
  • les liens exterieurs qu’elles reçoivent
  • les pages vers quoi elles pointent (liens sortants)

L’idée est ensuite de tester sur ce cluster un certains nombre de signaux qui lui permettent d’identifier si un document au coeur du cluster est manipulé par le reste de son environnement ou pas.

Pour les clusters ainsi identifiés, Google applique ses critères de manipulation sur toutes les pages qui composent le cluster. Il determine ensuite un signal global pour l’ensemble du cluster (un peu comme la note de qualité d’un site web).

Le “score” global est donc calculé en fonction du résultat du test et ce score peut influencer la manière dont google intéragit, non seulement avec le document en question, mais aussi avec tous les documents qui constituent le groupement de départ.

the overall signal is used at least partly to determine if the articles are manipulated. The overall signal can represent to what grade the page is considered to be manipulated or it can be used together with a threshold to determine whether the article is manipulated. The overall signal can be used at least in part in a ranking of an article in the cluster in response to a search query.

Les signaux de manipulation utilisés

Google utilise 2 types de signaux: les signaux internes (document signals) et des signaux externes (outside signals).

The signals can comprise outside signals and document signals. Outside signals can be signals associated with the cluster, but not from the individual documents in the cluster and document signals can be signals from the documents in the cluster. In one embodiment, the overall signal is determined for a subset of articles in the cluster.

les signaux externes

Cela peut être tout signal venant de l’exterieur du cluster et qui peut donner une indication à google concernant un effet manipulatif de l’élément. Par exemple un nombre de liens massifs depuis les guestbook. Le biais inhérent au fait de prendre en considération ce signal est que ce type de signaux peut très bien être utilisés par d’autres personnes que les propriétaires des sites web (chose qu’on voit très souvent sur le web). Cela peut conduire à d’autres dérapages et/ou faire du négative seo. C’est sans doute pour ça qu’il utilise aussi des signaux internes et que probablement, ces signaux internes pèsent plus lourd dans le calcul du scoring.

les signaux internes

Voici quelques exemples de techniques (connues de tous ;)) qui peuvent conduire à un marquage comme documents manipulés

  • qualité du contenu text: génération automatique de contenu, contenu qui ne contient que des expressions populaires sans réélle phrases structurées…
  • redirection de pages: pages satellite, redirection automatique de l’utilisateur sur une autre que celle positionnée
  • contenu caché: utilisation de la meme couleur pour le texte et le background de la page (texte blanc sur fond blanc)
  • historique du document: changement régulier du type de contenu, de la structure des liens sur le document, du propriétaire du domaine
  • beaucoup de liens en random: présence de beaucoup de liens sans relation avec le contenu du document
  • anchor-text: ration entre contenu text et anchor-text. cela veut dire qu’il calcule la proportion du contenu texte qui existe en dehors des anchor-text des liens.
  • et bien d’autres encore

Determiner un signal global (score)

Comme je le disais un peu plus haut, l’exploration de ces signaux donne lieu à un score de manipulation pour tout le cluster et determine la manière dont google se comportera avec toutes les pages qui composent le cluster.

Afin de calculer ce score, le brevet fait référence à un travail d’aggregation des données pour determiner la proportion des documents qui répondent positif à tel ou tel signal.

Par exemple, il calcule:

  • le pourcentage des documents qui contiennent seulement du texte dans les anchor-text des liens
  • le pourcentage des documents qui contiennent beaucoup de liens en random
  • le  pourcentage des documents qui redirigent tout de suite l’internaute vers une autre page

Le marquage d’un cluster comme manipulé (ou spammy)

Si un cluster ou un de ses sous ensemble est marqué comme “manipulé/spammy“, tous les documents composants le cluster ou le sous ensemble seront marqués comme tel.

Si le signal de manipulation global calculé est faible, alors une vérification manuelle des ingénieurs de google prendra place afin de valider ou pas le score.  Si le signal est fort, alors il y aura marquage immédiat sans aucune intervention humaine.

Impact de ce score sur la ranking des document du cluster

Un document marqué comme spammy, signifie que le score :

  • sera utilisé dans la fonction de ranking pour dégrader la position de ce document sur les expressions populaires
  • sera utilisé comme une indication de suppression totale dans les résultats de recherche naturels
  • sera utilisé pour minimiser l’impact de se document sur les facteurs de ranking basés sur la popularité et l’hyperlinking comme le pagerank qu’il transmet, par exemple.
  • sera utilisé dans tout le processus de crawl, d’indexation et de ranking

Voila, j’espère que cela aidera à mieux comprendre le fonctionnement de google :)

Lecture conseillée:
seobythesea

3 Responses for this post

  1. Gasy le magnifik
    Gasy le magnifik
    | |

    Bonjour,

    Très bon article que je vais me faire le plaisir de citer dans un prochain billet sur mon blog.

    Effectivement avec l’arrivée du Pingouin le petit monde du SEO a tellement tremblé que plus personne (enfin presque) ne semble capable de s’avancer sur la mise en place d’une bonne stratégie de référencement.

    Dans ton billet on voit bien ce qui SEO spam et ce qui ne l’est pas et comment un jolie réseau de site peut sauter en 2 secondes ;-)

    Bravo donc.

    Reply
  2. Commenter
    Commenter
    | |

    Depuis l’arrivée de Google Penguin après Panda 3.5, ce guide exhaustif sur la notion de webspam arrive a point nommé, bravo et merci !

    Il va falloir un peu de temps pour digérer toutes ces infos et les mettre en application, mais les informations sur les critères spammy et le score global sont très précieux !

    Reply
  3. Maisons Oregon
    Maisons Oregon
    | |

    Après lecture de cette excellente analyse, il me vient à l’esprit une question plus perfide : penses tu qu’un site qui utilise de la gestion de contenu dynamique hebdomadaire (type tirage aléatoire d’un tiers du texte tous les jours à 6h) pour rafraichir sa Home puisse être considéré comme spammy sur un site autre qu’un site média où ce genre d’actions est légitime ?

    Reply

Leave a Reply

Name
Name*
Email
Email *
Website
Website