Balise Link et Rel=”canonical”: Google résout le problème de duplicate content

Fini les problèmes de duplicate content (contenu dupliqué)! En effet, un post daté du 12/02/2009, a été publié par les équipes de Google dans webmaster central expliquant une méthode pour indiquer votre contenu dupliqué aux moteurs.

Si votre site présente des problèmes de contenu dupliqué (ou des contenu similaires) avec des urls différentes, cette méthode est faite pour vous! Elle vous assure un contrôle total des urls affichées dans les résultats de recherche et une consolidation de vos pages originales en lui renvoyant toute la popularité diluée.

Il s’agit de rajouter une balise <link> dans l’entête des pages web dupliquées indiquant la page d’origine (canonical). Cela se présente comme ceci:

< link rel=”canonical” href=”http://www.monsite.com/produit.php.id=253″/>

En rajouter un lien href à votre entête de page <head> vous pouvez signaler à Google qu’une page web est une duplication d’une autre page. Le principe de cette méthode est donc de fixer une url canonique d’origine (canonical) est de mettre, sur toutes les pages à contenu similaire ou dupliqué, la balise link renvoyant sur l’url d’origine.

Quels sont les types de duplicate content?

Pour rappel, le duplicate content ou contenu dupliqué est le fait qu’une seule et même page (contenu identique ou similaire) soit accessible avec plusieurs urls.
Il existe plusieurs sortes de duplicate, en voici quelques uns:

1. Le duplicate normal du site:

il peut être dû au fait qu’une page produit est accessible directement avec l’ID du produit ou avec l’ID du produit et de la catégorie. Exemple:

http://www.monsite.com/produit.php?id-pro=220

http://www.monsite.com/produit.php?id-pro=220&id_cat=2

2. le duplicate causé par les id de session

un id de session est un paramètre qu’on passe dans l’url afin de suivre l’activité d’un utilisateur sur un site. En général, on le met en place dans le cas où l’utilisateur n’accepte pas les cookies
exemple:

http://www.monsite.com/produit.php?id-pro=220&sid=253659857

3. Le duplicate causé par les tracker dans les url

tracker les urls peut s’avérer important pour les gens qui font de l’affiliation par exemple.
Exemple:

http://www.monsite.com/produit.php?id-pro=220?xtore=125632598566585523255842369

les internautess et les robots des moteurs peuvent donc accéder à ces pages via toutes ces urls!
Aujourd’hui, on peux simplifier les choses en rajoutant simplement la balise <link> pour spécifier votre version de page préférée
<link rel=”canonical” href=”http://www.monsite.com/produit.php?id-pro=220″ />

Pour reprendre l’exemple prcédent, cette balise sera donc dans le <head> de toutes ces pages:

http://www.monsite.com/produit.php?id-pro=220&id_cat=2

http://www.monsite.com/produit.php?id-pro=220?xtore=256325

http://www.monsite.com/produit.php?id-pro=220&sid=2563289

Google comprendra que toutes les pages dupliquées font référence à la page d’origine canonical http://www.monsite.com/produit.php?id-pro=220

Google indique que ce standard pourra être adopté par n’importe quel moteur de recherché lors de leurs crawl et indexation de contenu.

Interview de Joachim Kupke Ingénieur chez Google

Pour aller plus loin, Joachim Kupke, ingénieur dans l’équipe Google d’indexation a répondu à certaines questions des webmaster! En voici quelques une:

Puis-je utiliser les chemin relative pour spécifier une url canonique comme: <link rel=”canonical” href=”produit.php?id=253″ />?

Oui, Google sait reconnaître les liens relatif comme c’est le cas aussi si vous mettez en place une base href (<base>

que se passé-t-il si l’url originale renvoi un code 404?

On continuera à indexer votre contenu en cherchant une url original. Nous vous conseillons néanmoins de spécifier comme originale une url existante

Et si l’url d’origine n’est pas encore indexée par Google?

Comme pour toutes les pages web, Google essayeront d’indexer l’url d’origine spécifier les plus rapidement possible. Dés que la page sera connue de Google, il prendra en compte immédiatement l’attribut rel=”canonical”

L’url canonique peut-elle être une url redirigée?

Oui, Google va suivre la redirection et spécifié la page cible comme page

Peut-on spécifier une url d’origine sur un domaine différent?

Non. Pour migrer complètement sur un autre domaine, une redirection permanente dite 301 sont plus appropriée.
Actuellement Google prendra en considération la balise link avec url sur des sous-domaines ou un le site sans domaine mais pas sur un autre domaine. Donc e webmaster pourra utiliser cette balise pour spécifier une url se trouvant dans: www.exemple.com, exemple.com, aide.exemple.com mais pas sur exemple-aide.com.

Avez vous un exemple concret?

Oui! wikia.com nous a aidé pour testé cette methode. Par exemple, vous remarquerez en consultant le code source de cette url http://starwars.wikia.com/wiki/Nelvana_Limited qu’un rel=”canonical” a été spécifié cette page http://starwars.wikia.com/wiki/Nelvana.

5 Responses for this post

  1. Nick
    Nick
    | |

    Oui, enfin utiliser cette balise c’est prouver votre mauvaise implémentation des URL.
    Autre exemple : les liens sur les logos avec / et /index.html.

    Reply
  2. G
    G
    | |

    Si je comprend bien, cette balise lik rel=”canonical” … est à insérer dans les pages dupliquées?
    J’utilise de tracking pour l’affiliation et mes urls sont de ce type :

    http://www.monsite.com/ …../….php?ac=lecodeaffilie

    que je retrouve indexées dans les moteurs de recherche.
    le problème c’est que ces urls n’existent pas phisiquement ! Alors ma question est : comment ajouter cette balise aux pages dupliquées alors qu’elles n’existent pas ??!!!!

    merci

    Reply
  3. G
    G
    | |

    Merci
    j’ai déjà vu ton article sur le #. mais il m’est pas possible de l’utiliser, et il ne sert pas à ce genre de cas, il est utilisé pour les renvois !

    By the way, from RFC 3986 §3 :

    The generic URI syntax consists of a hierarchical sequence of
    components referred to as the scheme, authority, path, query, and
    fragment.

    URI = scheme “:” hier-part [ “?” query ] [ “#” fragment ]

    §3.4 :

    The query component is indicated by the first question
    mark (“?”) character and terminated by a number sign (“#”) character
    or by the end of the URI.

    Et par ailleurs si tu as un “#” dans ton URL, tu dois l’encoder avec %XX.

    je pense que je vais y passer la soirée .. a +

    Reply

Leave a Reply

Name
Name*
Email
Email *
Website
Website