L'erreur 404 : mieux la  comprendre et mieux la gérer

L’erreur 404 : mieux la comprendre et mieux la gérer

Véritable hantise du webmaster, cauchemar du SEO Manager et référenceur de site, l’erreur 404 est la « bête noire » des sites web.  Ce nouveau billet va vous permettre de mieux comprendre ce type d’erreur et mieux la gérer.

Les causes de l’erreur 404

 
La génération du code http 404 par le serveur a plusieurs origines qu’il convient de bien déterminer : 
 
  • l’erreur du webmaster, ou développeur : administrer et gérer le contenu d’un site est parfois une tâche lourde et complexe. Aussi et selon une étude récente, plus de 61 % des  « Erreurs 404 » sont dues à des erreurs commises par les propriétaires de sites. Ces erreurs sont généralement liées au changement d’un nom de fichier, de répertoire, qui n’est pas répercuté sur les liens pointant vers ce dernier. Autre type d’erreur conduisant à la génération d’un code 404 : la suppression de fichier avec le maintien des liens pointant vers ce dernier. Ce type d’erreur pourra normalement être corrigé sans grande difficulté par le webmaster qui pourra intervenir au cas par cas pour traiter les sources d’erreur. 
  • une erreur de la part de l’internaute : dans plus de 2/3 des cas, l’apparition d’une page 404 est provoquée par l’internaute. Cette cause d’erreur tierce est sans doute la plus difficile à andiguer, puisqu’elle peut prendre des formes très variées : mauvaise recopie d’un lien, utilisation d’un lien externe (backlink) défectueux. Ces causes d’erreurs sont quant à elles bien plus difficiles à maîtriser, surtout dans le cas de backlinks erronés construits sur des sites tiers.
 

L’impact de l’erreur 404 sur le SEO

 
Avant toute intervention sur un site, et notamment dans le cadre d’une suppression de pages ou de renommage de fichiers, qui sont susceptibles de provoquer des erreurs 404, il est important de s’interroger  sur la sensibilité des pages qui vont être modifiées, ou supprimées. Cette sensibilité va notamment être déterminée par les critères suivants :
 
  • le référencement de la page dans les moteurs de recherche. Avant de modifier une page, voire de la supprimer, il sera bon de s’interroger sur le positionnement de cette dernière sur les moteurs de recherche. A l’aide de divers logiciels (Semrush, Majectic SEO…) il faudra donc analyser cette dernière et voir le positionnement obtenu sur les divers moteurs, parmi lesquels Google et Bing. Si la page n’est pas positionnée, elle pourra être considérée comme secondaire. Il est à noter que cette étude sur le positionnement devra  notamment être complétée par une analyse de l’audience de la page (nombre de vues, taux de rebond….)
  •  Le nombre de liens retour (backlinks) dont bénéficie la page. L’une des sources du ranking d’une page est le nombre de backlinks ou liens retour dont elle bénéficie. Plus une page bénéficiera dont de backlinks et plus elle sera à considérer comme une page importante.
Après avoir déterminé le niveau de sensibilité d’une page internet, deux possibilités s’offriront alors au webmaster :
  • si la page est une page stratégique, on préfèrera mettre en place une redirection de type 301 (ou 302). Nous reviendrons sur ce type de redirection dans un prochain article
  • si la page est une page secondaire, ne bénéficiant que de peu de liens retour et d’un ranking faible, on pourra à bon escient laisser apparaître une page d’erreur 404.

La page d’erreur 404 côté serveur :

 
Comme nous l’avons indiqué précédemment, lorsqu’un internaute appelle via un lien interne ou externe une page qui n’existe pas, le serveur génère un code d’erreur 404. Ce code, qui appartient au protocole HTTP1, indique donc que la ressource demandée n’existe pas.
 
Comme l’ensemble des codes du protocole HTTP1, ce dernier ce compose d’un préfixe et d’un suffixe :
 
  • le préfixe 4 indique une erreur dans la requête. Dans le cas d’une erreur de type 404, il s’agit d’une mauvaise URL venant d’une page obsolète, ou d’une erreur de saisie de la part de l’internaute ;
  • le suffixe 4. Il  indique le problème causé par cette erreur, à savoir que la ressource demandée est introuvable. On retrouve par exemple ce sufixe 4 dans le code http 204 qui signifie qu’une requête a été traitée avec succès, mais qu’aucun document n’a été renvoyée après traitement de cette requête.
Il est bon de rappeler que sans  intervention  de la part du webmaster, ou administrateur système,  seul le code d’erreur 404 sera retourné par le serveur hébergeant le site. Le navigateur internet, face à ce code http générera alors une page  d’erreur standard, extrêmement déroutante.
Aussi, et pour pallier à cet affichage, il est recommandé d’éditer le fichier .htaccess, et d’insérer dans ce dernier la ligne suivante :
 
ErrorDocument 404 /absolue/ou/relative/page_404_perso.htm
 
Via cette ligne de commande, lorsqu’une page web inexistante sera appelée, une page personnalisée sera affichée, et cela au profit de la page standard des navigateurs.
 

Concevoir une page d’erreur 404 efficace :

 
Après avoir inséré la ligne de commande ci-dessus dans le .htaccess, il est important de construire avec soin la page d’erreur 404. Cette personnalisation va en effet avoir un rôle très important, celui de la rassurance. En effet, pour beaucoup d’internautes, l’affichage d’une page d’erreur 404 sur un site est gage d’une certaine insalubrité du site, et bien souvent, l’incite à quitter le site. Aussi, il est important pour les webmasters, d’apprendre à maîtriser le contenu de cette page, pour transformer un point faible en point fort.
 
Voici pour cela quelques pistes de réflexion :
 
  • même si l’internaute doit comprendre que la ressource demandée n’existe pas, ou n’existe plus, il n’est pas nécessaire de créer chez lui un état de panique, l’incitant à quitter le site. La mention de « page introuvable » doit donc être portée à sa connaissance, sans pour autant l’alarmer.
  • L’invitation à consulter d’autres pages : une fois l’internaute rassuré, il est important de proposer à ce dernier des ressources susceptibles de l’intéresser. La page d’erreur 404 pourra donc proposer à l’internaute de regarder les articles les plus consultés ou les plus commentés d’un blog. Dans le cas d’un site de e-commerce, on pourra notamment suggérer à l’internaute de retourner sur des pages qu’il a déjà consulté (grâce à l’utilisation d’un cookie de navigation).
  • Le moteur de recherche : la présence d’un moteur de recherche, bien en vue sur la page d’erreur 404 est aussi une façon habile de proposer à l’internaute de poursuivre sa navigation en effectuant une recherche sur un thème connexe à la page ne pouvant s’affichant pas.
  • Un formulaire de contact ou de « call back » : la présence d’un tel formulaire sur une page d’erreur 404 est quasi-indispensable en e-commerce. En effet, un tel formulaire va permettre au visiteur de prendre contact avec le propriétaire du site, et lui demander par exemple où trouver un contenu similaire à la page supprimée, ou bien encore d’inviter le  propriétaire du site à prendre contact avec lui.
Bien d’autres informations peuvent être affichées sur la page d’erreur 404, cependant, il est important que cette page dédramatise l’erreur, et soit suffisamment claire pour inciter le visiteur à poursuivre sa navigation sur le site.  Rappelons en effet que l’apparition d’une page d’erreur est l’une des premières causes du taux de rebond sur un site internet.

Le suivi des erreurs 404

 
Le suivi des erreurs 404 est important, autant au niveau du confort de navigation de l’internaute que du référencement naturel. Aussi, il existe une multitude de parades pour assurer la détection de ces erreurs, et leur suivi. Voici quelques pistes de travail :  
 
  • l’exploitation du fichier log du serveur : par défaut, le fichier log (ou fichier journal) d’un serveur consigne l’ensemble des erreurs 404. Il suffira donc d’ouvrir ce fichier, et d’en extraire les données pour connaître l’ensemble des pages en erreur.
  • L’utilisation d’un crawler de type Xenu, ou Screaming Frog SEO Spider Tool : ces deux logiciels sont en fait des crawlers de sites. Dès qu’ils vont être lancés, ils vont naviguer sur le site, de page en page, et détecter les ressources manquantes : il sera alors facile de connaître quel fichier est manquant, et par quelle page il est appelé. 
  • Les outils pour webmasters de Google et les outils pour webmasters de Bing : ces deux interfaces web, gratuites et simples à mettre en place, permettent d’obtenir la liste des pages qui n’existent plus, et quelles sont les pages qui les appellent. Le principal avantage de ces deux « boîtes à outils » est que les liens dressés depuis les sites extérieurs (les précieux backlinks) sont pris en compte. Cependant, malgré cet avantage indéniable, ces deux interfaces souffrent d’une latence importante dans la mise à jour de leurs données.
Outre ces trois solutions, il est à noter que Google Analytics propose un code de suivi des erreurs 404. pour cela le code habituel de Google Analytics doit être remplacé, sur la page d’erreur 404 par le suivant : 
<script type="text/javascript">
 var _gaq = _gaq || [];
 _gaq.push(['_setAccount', 'UA-XXXXX-X']);
 _gaq.push(['_trackPageview', '/404.html?page=' + document.location.pathname + document.location.search + '&from=' + document.referrer]);
(function() {
 var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
 ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
 var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
 })();
</script>
Dès lors, il sera facile de repérer dans l’interface de Google Analytics, les paramètres suivants :
  • le nombre de fois où la page d’erreur 404 s’est affichée : cet indicateur permettra de mesurer l’importance de cette erreur
  • le chemin d’accès à la page 404 : ce chemin d’accès permettra donc de connaître quelles sont les pages qui comportent des liens faisant appels à des ressources absentes
  • le  taux de rebond de la page, c’est à dire le nombre de personnes qui après consultation de la page 404 ont préféré interrompre la navigation sur le site au profit d’un autre
Allant bien plus loin que les trois outils « techniques » mentionnés précédemment, Google Analytics va donc s’avérer être un véritable outil webmarketing, qui pourra facilement être couplé à des études de A/B Testing, afin de mettre en place une page 404 efficace, faisant chuter le taux de rebond.
 

Erreur 404 ou 410 ?

 
Depuis quelques mois déjà, cette question est sur bien des lèvres de responsables de sites, et introduit une nuance importante dans la façon d’aborder les erreurs de non disponibilité d’une page. Il est en effet important de rappeler que :
 
  • le code http 404 est généré lorsqu’une ressource n’est pas disponible sur le site, sous entendant qu’il peut s’agir d’une indisponibilité temporaire. D’ailleurs, face à une erreur 404, bien des crawlers tentent à intervalle régulier de rappeler la ressource pour s’enquérir d’une nouvelle disponibilité de cette dernière
  • le code http 410 qui lui signifie que la ressource n’est plus disponible et ne le sera plus jamais.
A l’heure actuelle, Google semble traiter sans différenciation ces deux codes d’erreur… mais jusqu’à quand ?