Le duplicate content et la balise canonical

Qu’est ce qu’est le duplicate content ?

Ce terme fait echo sur la toile depuis le développement des problématiques liées au référencement de sites web dans les moteurs de recherche. Le duplicate content correspond à un même contenu que l’on retrouve à plusieurs endroits sur le web et donc accessible depuis deux url différentes.

Il constitue la bête noir des moteurs de recherche (et du référenceur) qui ne souhaitent pas surcharger leurs bases de données en indexant inutilement deux fois le même contenu. C’est aussi faire éviter une perte de temps à l’utilisateur qui n’a pas besoin d’obtenir plusieurs pages avec les mêmes informations pour sa requête. Google pénalise donc le référencement de ces pages dupliquées et l’enjeu est de taille pour les responsables web qui peuvent perdre beaucoup de visiteurs et/ou de clients potentiels.

Le duplicate content et les problèmes d’url canonique

L’url canonique, Il s’agit de l’url principale à utiliser pour une page, l’adresse officielle ou favorite en quelque sorte. Ci-dessous les problèmes que l’on peut rencontrer en matière de duplicate content.

  • L’indexation d’un site avec et sans le sous domaine « www »

    http://mickaelgros.fr et http://www.mickaelgros.fr sont bien deux urls distincts et peuvent être indexées par Google comme étant du duplicate Content.

    L’astuce étant d’utiliser un fichier htaccess à la racine du site pour établir une redirection permanente (redirection 301). Dans ce cas, l’utilisateur qui tappe http://mickaelgros.fr sera redirigé vers http://www.mickaelgros.fr , Google prendra en compte la redirection et l’adresse destinataire sera considérée comme l’adresse officielle de la page. A titre d’exemple voici le code à mettre en place dans le cas d’une redirection 301:

    RewriteCond %{HTTP_HOST} !^www\.mickaelgros\.fr$
    RewriteRule (.*) http://www.mickaelgros.fr/$1 [R=301,L]

  • L’utilisation de plusieurs domaines

    Il est courant de réserver plusieurs domaines pour un même site, par exemple pour éviter le cybersquattingou pour localiser un site on utilise facilement monsite.fr,monsite.com…
    Comme pour le premier point, il est important de garder une url principale et chaque page doit disposer de sa propre url. On pourra utiliser une redirection 301 pour rediriger vers le domaine principale.

  • Utiliser deux urls pour sa page d’accueil

    Il est courant de voir une page d’accueil accessible depuis l’adresse http://www.mickaelgros.fr et http://www.mickaelgros.fr/index.php. Dans ce cas, il faut veiller à ce que les liens du site qui pointe vers la page d’accueil (logo, liens « retour à l’accueil » par exemple) utilisent bien la même url, c’est à dire http://www.mickaelgros.fr.

La balise canonical

C’était l’actu référencement des dernières semaines, les principaux moteurs de recherche dont Google, Yahoo!, Microsoft Live Search et Ask.com se sont mis d’accord pour gérer une nouvelle balise « canonical » permettant d’éviter certains problèmes de duplicate content et notamment les erreurs listées ci-dessus..

Cette balise permet de définir une url canonique, c’est à dire d’indiquer la page source de l’information aux moteurs et donc consolider l’importance donnée à une page sur une seule et même url et éviter la dilution du page rank.

La balise se présente comme ceci <link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />

Pour en savoir plus sur l’url canonique et le duplicate content:

Une réponse sur “Le duplicate content et la balise canonical”

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *