Copier/voler : le duplicate content

Copier/voler : le duplicate content

Avec plus d’un billion de pages, réparties sur plus de 200 millions de sites, Internet est devenu la première banque de données mondiale, où se côtoient tous types de contenus. Il peut donc parfois être tentant de s’adonner au « Copier/Coller » et constituer avec « facilité » un site parfait. Cette pratique, qui se répand de plus en plus sur la toile n’est hélas pas sans conséquences.


Le Duplicate Content : formes et conséquences SEO

Généralement, le « Duplicate Content » prend  trois formes :

  • la page a été dupliquée à l’identique : elle comporte donc le même contenu, et les mêmes balises Title et Description. Seule l’URL change.
  • Le contenu de la page est similaire, mais les balises Title etDescription changent : cette situation est extrêmement fréquente, et se retrouve dans le cadre du vol de contenu
  • le contenu des pages sont différentes, mais les pages ont les mêmes balises Title et Description.

En plus de ces formes de contenu dupliqué, une nouvelle peu conventionnelle tend à se généraliser : le « Content Spinning ». Cette méthode consiste à ré-écrire un texte original, en remplaçant chacun des mots par un synonyme ou une expression proche. Certes plus délicate à détecter, cette méthode qui peut être automatisée via des logiciels, est sanctionnée par les moteurs de recherche.

Lorsque le moteur de recherche se retrouve confronté à un contenu dupliqué, ce dernier va lancer un algorithme qui va lui permettre de déterminer qui est le propriétaire du contenu original, et qui va hériter des sanctions. Pour mener à bien cette opération, l’algorithme va s’interroger sur divers points parmi lesquels ladate de publication de chacun des articles, ou encore l’autorité de chacun des sites. Ce n’est qu’après cette étape qu’il sera en mesure de distinguer l’article original (appelé aussi article canonique) de l’article dupliqué.

Les sanctions attribuées à la page dupliquée sont de plusieurs niveaux, mais visent un seul et même objectif : pénaliser le référencement naturel c’est à dire l’indexation  et le positionnement du site.

Les sanctions sont les suivantes :

  • l’espacement de la visite des crawlers : l’expression crawlerdésigne l’ensemble des robots qui ont pour mission de collecter les données présentent sur les sites, et les soumettre aux algorithmes d’indexation et de positionnement. Si leurs visites sont espacées, les nouveautés présentes sur le site sont moins souvent portées à la connaissance des moteurs et des internautes, entrainant une perte de visibilité ;
  • le passage des pages dans l’index secondaire des moteurs de recherche : les pages victimes de cette sanction sont moins interrogées dans le cadre des requêtes des internautes, et reçoivent moins d’audience ;
  • la désindexation de la page : il s’agit de la sanction la plus lourde. La page désindexée ne figure plus dans les pages de résultats des moteurs de recherche.

De la duplication de contenu en toute légalité et éthique

Même s’il n’est pas recommandé de procéder à de la duplication de contenu, cette pratique est parfois incontournable dans certaines situations (données techniques, textes de référence…). Aussi il convient de faire preuve de probité et d’un grand sens de l’éthique.

Avant toute duplication de contenu, il conviendra de s’enquérir de l’autorisation de l’auteur du texte. Cette autorisation, que l’on préfèrera expresse à tacite, est destinée à délimiter les conditions de mise à disposition du contenu : il peut s’il le désire, demander une redevance, ou n’autoriser qu’une duplication partielle de son contenu.

Si les conditions fixées par le détenteur des droits du texte conviennent au demandeur, ce dernier pourra alors implémenter les textes sur son site, en respectant scrupuleusement les modalités de l’accord entériné avec l’auteur.

Il est important de rappeler que la demande de reproduction de contenu est LE préalable impératif à la mise en ligne. En aucun cas le fait de dupliquer un article en se contentant de mentionner la source, n’affranchit le site dupliquant de cette demande.

Tout comme l’obtention du droit de duplication répond à une procédure stricte, la mise en ligne d’un contenu dupliqué demande une application particulière, afin de ne pas porter préjudice aux deux sites. Idéalement, les préconisations techniques suivantes sont de rigueur :

  • La mise en œuvre d’une balise canonique : créée il y a quelques mois, cette balise Meta qui trouve sa place dans le header de la page contenant le « duplicate content », va indiquer aux crawlers l’URL de la page présentant le texte original ;
  • L’utilisation de la balise Author : cette balise, inventée par Google en 2011 est destinée à indiquer au moteur qui est l’auteur de l’article original. Elle peut contenir soit une adresse email, soit un lien vers le site canonique. Il est à noter que cette balise peut désormais être reliée à un profil Google+.

L’urgence : protéger son contenu

Si la musique, et les livres font l’objet d’une protection efficace, régissant autant leur utilisation, que leur mise à disposition, les contenus internet quant à eux, ne peuvent se targuer de tels avantages.

Face à ce vide juridique, et l’impossibilité de déposer un réel « Copyright » sur les créations textuelles web, une solution est envisageable : la mise à disposition du contenu sous licence Creative Commons (http://creativecommons.fr/). Fondé en 2001, cet organisme à but non-lucratif a pour objectif de permettre aux auteurs de protéger leurs créations de façon simple, sans avoir à se soumettre aux dispositions légales habituelles de protection de la propriété intellectuelle, si tant est que ces dernières existent. A cette fin, Creative Commons propose 6 licences spécifiques, et gratuites.

Il est à noter l’existence de sociétés qui, pour quelques dizaines euros, proposent la protection de textes et créations internet. Ces sociétés ne sont pas habilitées à délivrer des « Copyright » sur les textes, et ne peuvent que consigner la date de création d’un fichier et le nom de leur auteur… une protection bien onéreuse eut égard à sa réelle portée.

Traquer les contrevenants, et sanctionner

Tout auteur de contenu original doit donc veiller, périodiquement, à ce que sa création ne soit pas dupliquée sans son autorisation. Le web recèle de plusieurs dizaines d’outils, permettant cette traque. Les plus simples permettront de détecter le contenu dupliqué mot à mot, tandis que les plus évolués pourront affiner cette recherche en calculant le taux de similarité entre la page canonique et la page dupliquée. Parmi eux, nous pouvons mentionner UN.CO.VER, mais aussi PlagiarismDetect (http://www.plagiarismdetect.com/) ou encore Copyscape (http://www.copyscape.com/) .

Même s’il n’existe pas de réelle protection des contenus en amont comme nous l’avons évoqué précédemment, tout créateur de site peut, lorsqu’il estime que son contenu est contrefait, entreprendre une action en justice. Certes lourde et couteuse, cette procédure a de par le passé porté ses fruits, en témoigne un jugement rendu en 2010 en faveur de l’AFP, qui avait obtenu la condamnation du groupe Popix à 90 000 euros de dommages et intérêts pour reproduction de dépêches d’actualités sans autorisation.

Conscients que tous les internautes ne sont pas en mesure d’ester en justice, les moteurs de recherche ont aussi pris le problème de Duplicate Content à bras le corps. Aussi, Google dispose, depuis le début Novembre, d’une fonction d’avertissement lors de la détection de contenu dupliqué, et incite même les webmasters à revendiquer les contenus utilisés sans leur autorisation, via un formulaire spécial. Le moteur de recherche s’est engagé à examiner manuellement toute les demandes, et à restituer la paternité des contenus à leur géniteur.

 

Alors que le web continue à connaître une croissance exponentielle, et que les moteurs de recherche tendent à raffermir leurs positions quant au phénomène de contenu dupliqué, la vraie réponse à cette « plaie du web » est à chercher auprès des responsables de site, qui de par un simple « Copier / Coller Voler » sont en train de porter atteinte à ce qui a fait la force d’internet : la diversité de ses contenus, et leur valeur ajoutée. 

 

Contribution pour le site 2pointsvirgules