Mise en place des fichiers sitemap.xml

Comme nous l’avons vu en introduction de ce guide, le site Yellow-Sub.net se compose de 5 axes thématiques :

  • une section consacrée aux Beatles
  • une section consacrée à Paul McCartney
  • une section consacrée à John Lennon
  • une section consacrée à Ringo Starr
  • une section consacrée à  George Harrison

Parallèlement, une section du site attire beaucoup de visiteurs, il s’agit du forum. Compte tenu de l’étendue du site, il n’est pas possible, en une fois, d’opérer une optimisation sur toutes les sections du site. Nous allons donc nous consacrer aux  deux axes suivants, tout en optimisant en arrière plan le forum (plateforme PhpBB) :

  • Yellow-Sub.net ( http://www.yellow-sub.net ) : concernant ce nom de domaine, nous allons tenter de renforcer le référencement sur les mots clés que nous avons vu précédemment
  • Sous-domaine Beatles ( http://the-beatles.yellow-sub.net ) : l’ensemble des pages relatives aux Beatles vont être retirées du domaine principal, et affectées à ce sous domaine.

Comme nous l’avons vu précédemment, chaque sous-domaine est à considérer comme un site à part entière, qui héritera d’une partie de la notoriété du domaine duquel il est dérivé. De ce fait, chaque sous domaine va donc posséder son propre fichier « sitempa.xml ». Le sitemap est une « carte du site » réalsiée au format XML, et qui va lister l’ensemble des pages disponibles sur le site, et dès lors faciliter leur indexation par les moteurs de recherches.

Le site Yellow-Sub.net reposant sur le CMS SPIP, il est donc installé un plugin permettant la génération d’un sitemap avec une grande facilité.

Les sitemaps créés sont donc créés aux adresses suivantes :

  • Pour le domaine Yellow-Sub.net -> http://www.yellow-sub.net/sitemap.xml
  • Pour le sous-domaine http://the-beatles.yellow-sub.net  ->http://the-beatles.yellow-sub.net/sitemap.xml

Opportunités à générer les sitemap alors que l’optimisation « on page » n’est pas terminée : il y a un réel intérêt à générer, d’ores et déjà les fichiers « sitemap.xml ». En effet, même si l’optimisation ne fait que débuter, les changements que nous allons opérer sur le site vont être répercuter « en temps réels » sur le site. Le robot de Google étant sensible aux changements sur les sites internet,  prendra dès lors connaissance de toutes les modifications s’opérant, et sera donc plus à même d’indexer rapidement les pages modifiées, et désindexer les pages disparaissant….

Voici un exemple du fichier « sitemap.xml » du site Yellow-Sub.net :

On notera que lors de la mise en place des fichiers « sitemap.xml », les tailles des fichiers sont les suivantes :

  • pour le site http://www.yellow-sub.net : 14 971 adresses pour une taille de 2.2 Mo
  • pour le sous-domaine http://the-beatles.yellow-sub.net : 4 708 adresses pour une taille de 0.8 Mo

Observations techniques : il est important que le sitemap d’un site soit encodé au format UTF-8. Nous avons placé les fichiers « sitemap.xml » à la racine du domaine et du sous-domaine auxquels ils appartiennent. Il conviendra de surveiller la taille de ces fichiers. Pour rappel, ce type de fichier ne doit pas dépasser la taille de 10 Mo, et contenir plus de 50 000 liens. Si nous devions être confronté à moyen terme à un tel problème, les fichier « sitemap.xml » peuvent être fractionnés, et il conviendra d’utiliser alors un fichier d’index Sitemap (nous noterons qu’un index de Sitemap peut quant à lui contenir jusqu’à 1000 adresses de Sitemap et ne doit pas excéder 10 Mo)

Nous avons précédemment vu que Google possédait dans son index non moins de 45 800 adresses, alors que nos deux fichiers « sitemap.xml » n’en dénombrent que 19 679. il ne s’agit pas d’un bug du plugin générant les sitemap. Ce différentiel s’explique par le fait que le forum du site, zone très fréquentée, n’est pas encore concernée par le sitemap. Ce forum fonctionnant sur la base d’une plateforme PhpBB va donc prochainement être « modé » afin de posséder aussi son propre fichier  sitemap.xml, qui sera placé à la racine du sous domaine. Concernant ce sitemap, il conviendra d’être extrêmement vigilant sur sa taille, car nous risquons d’atteindre rapidement les limites techniques ci-dessus mentionnées.

L’intérêt d’un sitemap.xml : le fichier sitemap.xml a pour principal intérêt d’avertir les moteurs de recherche du contenu du site et de l’évolution de ce contenu. Ce fichier s’avère particulièrement utile et requis pour les sites qui ont plus de 10 000 pages, car il va permettre aux robots en charge de l’indexation de parcourir avec plus de facilité l’ensemble des pages du site, et d’être réactifs aux changements dudit site. L’absence d’un fichier sitemap.xml peut donc entraîner une latence dans l’indexation des pages. Nous noterons en conclusion que le fichier sitemap.xml est UNE clé du référencement, mais pas LA clé du référencement :il contribue à une meilleure indexation, et comme tous les facteurs SEO, il ne doit pas être négligé.

Logiciels et Scripts  de création de sitemap : il est à noter que si le CMS que nous utilisons, à savoir SPIP, n’avait pas pu générer les fichiers sitemap.xml via l’ajout d’un plugin, nous aurions pu disposer de diverses autres solutions techniques pour disposer d’un tel fichier. Nous trouvons par exemple sur internet des logiciels (à installer sur PC) et qui vont « crawler » le site et générer le fichier sitemap.xml, qu’il conviendra ensuite de déposer via un client FTP à la racine du site. Parmi ces logiciels, nous pouvons mentionner YoodaMap de Yooda, extrêmement puissant. Il existe cependant quelques inconvénients à ce type de logiciel :

  • l’ordinateur devra rester allumé  durant tout le temps du « crawl » de votre site (si le site comporte plusieurs milliers d’URL, ce temps sera extrêmement long et monopolisera de la bande passante côté serveur, mais aussi la bande passante connectant l’ordinateur à internet),
  • il conviendra de ne pas oublier de  procéder à une nouvelle génération du fichier sitemap.xml lors de chaque mise à jour du site
  • il ne faudra pas oublier de  déposer le fichier sitemap.xml à la racine du site après chaque nouvelle régénération de ce dernier

Les utilisateurs possédant une bonne connaissance de Linux et Python pourront quant à eux s’orienter vers le script Google Sitemap Generator distribué par Google Code. Certes plus complexe à installer, ce script va procéder à une analyse des fichiers logs du serveur et générer, à la volée le fichier sitemap.xml. Malgré la certaine complexité liée à l’installation du script (à réserver aux développeurs ou Sysadmin), et le fait qu’il va monopoliser une part de la puissance du serveur lors de son exécution, ce type de script, une fois exécuté, va générer automatiquement le sitemap.xml, et répercutera toutes les modifications du site sur ce fichier, sans qu’aucune intervention de la part de qui que ce soit ne soit requise. Exit donc les fastidieux transferts FTP.

Laisser une réponse