Le duplicate content, une plaie du web

Le duplicate-content, auto-généré ou malveillant, est une des plaies du web :

  • il encombre les résultats de recherche et trompe les internautes
  • il encombre les bases de données des moteurs de recherche

Ces derniers s’efforcent de fournir aux internautes les résultats les plus pertinents. Or le “duplicate-content” autrement dit le “contenu dupliqué” ne fait que reprendre en X exemplaire le contenu d’une page pour ensuite nous noyer sous des pages identiques.

Quel est son origine ?

Le duplicate ” auto-généré”

  • Les CMS ont tendance à générer du contenu dupliqué, les blogs particulièrement. Par exemple :
    • -http://www.mondomaine.com/maison/campagne
    • -http://www.mondomaine.com/tag/campagne
    • -http://www.mondomaine.com/print/campagne

      la page de ” tag” et la version imprimable (print) de la page “campagne”  dans la catégorie ” maison” ont du contenu dupliqué  auto-généré

.

  • Les sites de e-commerce présentent souvent, quant à eux , des articles accessibles sous plusieurs rubriques, des pages accessibles par plusieurs url ( avec entre autres les id de sessions : http://serveur/servlet/exemple?id=674684641)
  • Autre cas fréquent : l’utilisation indifférenciée d’un nom de domaine avec ou sans le www :
    • http://www.mondomaine.com
    • http://mondomaine.com

    il faut veiller à n’utiliser qu’une seule de ces url, les outils webmasters de Google, par exemple, permettant de choisir celle que l’on veut privilégier.

  • Le quatrième cas et actuellement non seulement très fréquent mais à la base des pratiques du web est le flux rss : celui-ci reprend le contenu d’un article et le diffuse vers  des sites d’aggrégation tels que wikio, mybloglog, google-reader etc.. Ces aggrégateurs sont légion et sont également un espace reconnu d’information pour les internautes. Il ne peut donc être question de les pénaliser.

Le duplicate ” frauduleux” ou malveillant

Il s’agit tout simplement de vol de contenu par des webmasters peu scrupuleux, en mal d’imagination.
Il existe également des systèmes automatiques qui permettent de ” générer du contenu” en allant tout simplement se servir sur ce qui existe déjà sur la toile. Ces sites sont en général destinés à se faire des revenus adsense sans trop se fatiguer.

Face à des formes de duplicate content d’origines différentes et plus ou moins légitimes  les moteurs de recherche ne peuvent se permettre d’avoir des politiques trop tranchées.
Il fut un temps ou le duplicate content était la terreur des webmasters : le moteur qui était dans l’incapacité de départager ; l’auteur d’un page dupliquée et le copieur blacklistait les 2 pages. Des petits malins d’ailleurs se sont ainsi amusés à faire blacklister des concurrents en faisant de la duplication de contenu.

Avec l’apparition des flux RSS il a bien fallu moduler ces décisions.
Les moteurs de recherche s’efforcent maintenant de ne pas blacklister les sites mais de passer au second plan les pages qu’ils estiment être du duplicate. Ils les rangeraient dans ce qu’on appelle l’index “secondaire”.

Comment faire pour éviter la duplication de contenu sur son site ?

Il est  recommandé d’indiquer aux moteurs quelles sont vos pages en duplicate ” auto-généré”. Vous pouvez utiliser la balise meta “noindex, nofollow”
<meta name=”robots” content=”noindex, nofollow”>
qui indique aux robots des moteurs de recherche de ne pas indexer une page ni de suivre les liens qui sont dessus. 

Depuis quelques jours Google, Yahoo et Microsoft offrent un nouveau moyen aux webmasters pour faire connaitre aux robots quelle est leur url de référence, autrement nommée ” url canonique”.
Il suffit d’ajouter
<link rel=”canonical” href=”http://www.votresite.com/page-canonique.html” />
dans la partie ” head” de la page qui a un contenu dupliqué

Pour plus d’informations :

Specify your canonical (Google)
Partnering to help solve duplicate content issues (Microsoft)
Fighting Duplication: Adding more arrows to your quiver (Yahoo!)

Claudine Elisseev  MCI Part Time 2008
 

Comments are now closed for this article.