Pourquoi des pièges ?

Il existe de nombreux pièges pour référencer son site de façon optimale, ces pièges sont surtout d'ordre technologiques. La mise en place d'une technologie particulière peut entraver le bon référencement, surtout lorsque celle ci « masque » son contenu aux moteurs de recherches.
Nous allons voir les principaux pièges, comment les contourner et comment, surtout, y remédier.

Site contenant des frames.

Les frames sont un découpage de l'affichage permettant d'afficher sur une même fenêtre du navigateur client, plusieurs pages de son site-web.

Site avec des frames

L'avantage majeur est la possibilité de factoriser des pages, par exemple ici d'afficher le menu dans une frame et le contenu des pages dans une autre.

Ainsi pour changer le menu sur toutes les pages du site, il suffit de changer la page contenant le menu. Mais la mise en place des frames est techniquement problématique, en effet, la reconstitution des pages s'effectuant côté client, les robots des moteurs de recherche ne font pas cette reconstitution, pire, ils ne voient que la page HTML qui effectue ce découpage:

<FRAMESET COLS="30%,70%">
<FRAME SRC="page_1.html">
<FRAME SRC="page_2.html">
</FRAMESET>

Pour palier à ce problème, la solution est d'utiliser les balises <noframes> et d'introduire, une version statique des pages dans cet emplacement, qui sera lui, vu par les moteurs de recherche. Il suffit donc d'écrire une description du site, et surtout les liens de toutes les pages de votre site, pour que le robot, puisse « suivre » ces liens et indexer toutes les pages du site. Ex:

<noframes>
<body>
Description de mon site<br />
Mes pages: <a href="une_page.htm">titre</a>
</body>
</noframes>

Site en flash.

Le piège le plus répandu, est le cas du site « en flash ». Flash est une technologie développée par Macromedia, qui permet de développer des animations contenant du texte, des liens hyper-texte, ou encore de la musique.
Le piège c'est l'encapsulation de l'information de votre site-web.

En effet, tout texte contenu dans une animation flash, ne sera pas lisible par un moteur de recherche (voir la note sur le fonctionnement des moteurs de recherche).

On rencontre même parfois, des sites qui reposent entièrement sur la technologie Flash. Comme par exemple ce site personnel sur un DJ:

Site en flash

Quelles sont alors les solutions ?

La plus accessible est d'éditer le code des balises HTML <embed> qui permettent l'insertion de l'animation flash. En utilisant judicieusement les balises <noembed>, on peut écrire du texte qui sera lui, visible par le robot du moteur de recherche. Ce texte doit être une description ou résumé de l'information contenue dans cette animation.

<embed width="150" height="150" src="animation_flash.swf">
<noembed>
ici vous pouvez mettre du texte visible
</noembed>

Une autre solution, serait de proposer au visiteur de voir le site sous sa version Flash et sous sa version HTML (qui serait une version dégradée du Flash, contenant le texte, sans animation). C'est le cas du site du DJ.

flash ou html

Mais l'on peut se poser la question de l'utilité alors de Flash, si le contenu doit être nécessairement dédoublé pour être référencé, d'autant plus que les sites en flash sont plus cher à faire développer. Comme on l'a vu, Flash est donc une technologie à utiliser avec parcimonie.

Site contenant des fichiers d'extension doc et pdf.

Souvent des sites internet proposent de télécharger une partie de leur contenu au format pdf ou doc. C'est certes beaucoup plus pratique pour la personne qui maintient le site-web, car cette manipulation de documents est beaucoup plus intuitive pour une personne non-informaticien. (On utilise son logiciel de traitement de texte, les même metaméthodes d'archivage que pour ses documents classiques.)

C'est le cas de ce site, qui propose des cours sous forme de fichiers doc ou pdf.

Site contenant des docs et pdfs

Mais c'est une grosse erreur que de penser que ce site sera référencé selon ces contenus, les robots ne pouvant pas réagir comme des humains à « ouvrir » les fichiers, ils seront juste ignorés. Il n'existe pas de solution miracle, sauf peut être de faire précéder le téléchargement du fichier par un descriptif complet, sous forme de texte.

Site contenant des images.

Une autre erreur classique, dûe a la méconnaissance des techniques de référencement, est de faire figurer de l'information dans une image. C'est une pratique que j'ai plusieurs fois pu constater dans le domaine de l'édition. Avec notamment des documents produits puis scannés pour être mis ensuite sur internet.

C'est le cas ici avec un annonce d'une nouvelle parution des éditions Paquet :

Site avec des jpgs

Cela permet de garder son outil de mise en page préféré, mais le contenu ne sera, une fois de plus pas référencé par le moteur de recherche. Une solution serait d'éditer les balises HTML permettant l'insertion, pour ajouter un texte alternatif à l'image :

<img src="mon_image.jpg" title="titre de l'image" alt="descriptif de l'image, de l'information qu'elle continent" />



Pop-up automatiques.

Un autre problème est lié à l'ouverture automatique de pop-up (pages internet de petites tailles apparaissant lors de la navigation). En effet, le robot des moteurs de recherche, ne peut pas « voir » tel un humain ces pop-up et son contenu sera ignoré. Pour y remédier il faut au moins mettre un lien vers cette page pop-up pour que le moteur de recherche l'indexe elle aussi.

Mais heureusement cette pratique est en voie de disparition, car il existe nombre de technologies permettant de bloquer ces pop-up, usuellement employées pour diffuser de la publicité.

Vers des solutions a long terme ?

Nouvelles technologies de factorisation

Pour comprendre quelle solution apporter au problème des frames, il faut comprendre pourquoi elles sont apparues. Leur principal interêt etant de factoriser des pages, elles disparaissent peu a peu avec les nouvelles techniques de factorisation qui sont aujourd'hui disponibles. Parmi elles, l'utilisation de pages dynamiques (générées par des scripts en php, asp, java...). Permettant de factoriser l'information au niveau des traitements et du code, et non plus au niveau de l'affichage simplement.

Avancée des moteurs de recherche

Conscient des problèmes que posent les fichiers pdf aux référencements efficaces, les moteurs de recherche ont fait de gros progrès en quelques années dans leur indexation. Aussi les robots intègrent désormais des modules leur permettant de transformer les fichiers pdf ou doc en HTML, format compréhensible par celui-ci.