Tag Archive


Tout ce que vous avez toujours voulu savoir sur le contenu dupliqué

Rédiger du contenu sur internet. Cette phrase peut paraître emplie de noblesse pour les amoureux du verbe et de la prose, cependant pour nombre de professionnels du web la réalité est bien différente. Les situations où le besoin de contenu «ingrat» et répétitif sont nombreuses : descriptions d’annuaires, création de fiches produits, rédaction de communiqués de presse et j’en passe. Céder à la tentation de copier-coller du contenu d’une page à une autre représente un gain de temps non négligeable. Cependant, ce que l’on appelle le «contenu dupliqué» est un réel produit toxique pour vos sites internet. D’autant que les situations où il peut se manifester ne sont pas toujours dépendantes de notre volonté.

Le problème du contenu dupliqué sur internet

Rappel sur sa définition

L’expression contenu dupliqué (ou «duplicate content» en anglais) s’applique à une ou plusieurs versions identiques d’un même contenu textuel sur internet. Il peut être total ou partiel (expressions, phrases, groupes de mots). Il faut également rappeler que le contenu est dit dupliqué seulement s’il a été indexé par les moteurs de recherches.

Problèmes que causent le contenu dupliqué

Il est évident que plus les moteurs de recherche indexent d’information, plus ils ont besoin d’infrastructures physiques pour la stocker. Et plus le budget dédié au crawling pour l’index primaire augmente, plus le contenu dupliqué pose en premier lieu des problèmes économiques pour les moteurs de recherche. De plus, la pertinence des résultats de Google (ou de tout autre moteur) s’en voit affectée. Et ça, comme nous le savons tous, c’est toucher à leur corde sensible : leur gagne-pain. Evidemment, la célèbre firme «don’t be evil» ne le reconnaîtra jamais de cette manière. Elle avancera que le duplicate content nuit aux pages de bonne qualité, celles qui proposent un contenu unique et de qualité pour l’internaute. Et elle a bien sûr raison sur ce point.

Les situations où se manifestent le contenu dupliqué

Le cas du «copié-collé»

Le cas le plus flagrant et le plus sémantiquement parlant pour l’internaute lambda est celui de la similarité à 100%. Les contenus textuels sont littéralement copiés d’une page à l’URL A puis collés sur une page à l’URL B. Celui-ci est plutôt rare, car seuls les amateurs non avertis peuvent prendre de tels risques aussi inutilement. D’autant plus que l’internaute lui-même peut se rendre compte que ce contenu est déjà présent, et bien sûr le signaler. En plus de vous faire pénaliser, votre e-réputation en prendra surement un sacré coup !

Similarité d’une faible part de contenu

Certains, plus subtils, se contentent «d’emprunter» dans les contenus des autres. Un bloc de texte par ici, une image par là et quitte à faire, pourquoi ne pas présenter mes contenus dans le même ordre ? Tout ça pour un gain de temps dans la conception des contenus (car vous le savez comme moi le temps est de l’argent, est-il besoin de le répéter ?)

Les conséquences et sanctions de son utilisation

Les pénalités d’indexation et de crawling

Évidemment, Google, Bing et consorts ne laisseront pas leurs robots détecter du contenu dupliqué sans rien faire. L’éventualité la plus enviable est qu’il désindexe tout simplement votre page de son index principal. Les internautes la trouveront bien sûr beaucoup plus difficilement dans les moteurs de recherche, voire plus du tout. Mais il vous reste toujours vos dix doigts pour modifier les éléments «viciés» et à espérer que les robots crawlent à nouveau votre page dans de brefs délais. Je vous conseillerai de créer quelques liens entrants vers la page «nettoyée» afin de stimuler le crawl des robots.

La perte d’autorité et de Page Rank

Les sanctions que Google peut appliquer se sont encore durcies après l’apparition du fameux filtre Panda. En effet, votre site peut carrément perdre tout son page rank et son autorité. En plus de tout ça, votre site peut perdre son classement. Plus très mignons les pandas après ça, non ?

La désindexation des moteurs

 

Il ne faut pas s’attirer les foudres du dieu Google ! Si il applique sa sentence ultime, vous ne serez plus qu’un fantôme dans ses SERPs (ndlr : pages de résultats).

Cependant je tiens à rappeler que cette pénalité divise la communauté SEO : beaucoup la qualifie de mythique et soutiennent qu’elle n’existe pas. De plus elle s’appliquerait uniquement en cas de duplication totale de contenu de page.

Techniques pour repérer le «duplicate content»

Bien heureusement, il existe un large panel de solutions pour détecter si des individus malveillants vous ont lâchement subtilisé du contenu ou si vos redirections 301 ou autres versions multilingues se marchent dessus. En voici les principales :

  • Webmaster tools : La section «Diagnostics > HTML Suggestions» vous permettra de repérer directement les petits malins qui vous auront subtilisé le contenu de vos titles et méta descriptions.
  • Commande google site. Encore une autre technique pour vérifier s’il y a un bloc de texte dupliqué sur son site ou repris par des tiers. Entrer la requête suivante dans Google : site:nomdusite.com « ceci est un bloc de texte ». Attention : ne pas mettre les «www» dans la requête
  • Commande inurl. Afin de repérer tout contenu dupliqué dans une URL, entrez sur Google la commande suivante : site:nomdusite.com inurl:sort= Attention : ne pas mettre les «www» dans la requête
  • Outils en ligne et logiciels. Et enfin, voici quelques outils biens utiles dans la traque du contenu dupliqué :
    - http://www.textbroker.com/uncover/
    - http://www.positeo.com/check-duplicate-content/
    - http://duplicatecontent.com

Comment remédier au problème du contenu dupliqué ?

Règle du pourcentage

Une certaine tolérance est appliquée par les moteurs de recherches. Car il est bien sûr difficile dans certains cas, comme nous l’avons énoncé plus tôt, de ne pas dupliquer du contenu involontairement. L’usage étant donc de différencier les contenus au minimum de 30 %. On avouera que c’est une technique peu chronophage et largement appliquée. Une sorte de content spinning manuel.

Suppression des pages et redirections 301

Vous pouvez dans un premier temps simplement supprimer les pages dupliquées. Cependant, assurez-vous bien qu’il n’y ait pas de liens internes ou externes pointant vers la page en question. Si c’est le cas, signalez-le au webmaster qu’il s’en occupe. Appliquez ensuite une redirection 301, ou, si cen’est pas possible une 404 personnalisée avec un lien de redirection à l’intérieur. Vous pourrez également demander la suppression de la page via Google Webmaster Tools (Site configuration > « Crawler access » > Remove URL).

Le concept de page canonique

Il est possible de reprendre le contenu d’avoir deux mêmes contenus avec deux URLs différentes. Il faut simplement indiquer laquelle des deux est la page canonique. Pour cela il suffit de l’indiquer dans le code de celle-ci grace à la balise <link rel=»canonical»href=»adressedemonsite.com»/> (à placer dans le <head>).Tous les liens entrants ainsi que la popularité seront réattribués à la page canonique.

Les balises multilingues pour Google

Les nouvelles balises <link rel= »alternate » hreflang= »langue » href= »http://www.example.com/ » /> permettent d’indiquer le pays cible du contenu. Dans le contexte de la lutte contre le contenu dupliqué, cette balise est très pratique pour les sites ayant plusieurs versions pour des pays différents parlant la même langue. Comme par exemple l’Espagne et les pays d’Amérique du Sud qui parlent tous espagnol. Ou encore la France et ses voisins Belges Wallons et Suisses Romands.

Liens et références à propos du contenu dupliqué

Pour finir je vous propose une série de vidéos et de liens traitant eux aussi de ce «fléau» (soyons Google-friendly) qu’est le duplicate content :

- vidéos matt cutts

- articles blogs référence abondance, axenet, keeg, laurent bourrelly, etc

</br>

</br>