Brève description

Un moteur, c’est avant tout une batterie de logiciels appelés robots (spiders, crawlers, worms, etc.…) qui parcourent tous les sites web et indexent leurs contenus dans de gigantesques bases de données. C’est ensuite un autre logiciel (search engine) qui est chargé de parcourir ces bases de données afin de répondre à vos requêtes. Bien sûr, aucun moteur de recherche ne peut parcourir la totalité des pages en une journée (ce processus prend généralement plusieurs semaines), chaque moteur adopte donc sa propre stratégie, certains allant même jusqu'à calculer la fréquence de mise à jour des sites.

Collectes des données

Bien évidement, ces robots ne vont pas stocker l’intégralité des sites qu’ils visitent. Ils téléchargent uniquement les pages HTML et parcourent les liens qui s’y trouvent, aidé par un fichier (robot-rules), que l’administrateur peut placer à la racine du site afin de rendre les robots plus efficaces et éviter que ceux-ci ne fassent de trop nombreuses requêtes et ne surchargent le site.

Traitement des données

De tout le texte récupéré par les robots, une grande partie est inutile (conjonctions de coordinations, article, etc.…), ces mots, appelés des mots « vides » ou « stop-words» seront éliminés, ainsi que la mise en page et toutes les informations contenu dans les vidéos, sons ou images et média en générale. Par contre ceux-ci enregistrent notamment les méta-informations (que nous verrons plus tard) contenus dans les pages HTML.
Chaque mot est alors associé à la page à laquelle il appartient.

Résultat d’une recherche

Avec les données collectées par les robots, le moteur de recherche est maintenant capable de nous présenter toutes les pages contenant les mots-clefs qui lui ont été fournis, mais encore faut il que la page qui nous intéresse ne soit pas la 13540 éme. Concernant ce problème plusieurs solutions existent:
- Essayer de deviner le sujet de la recherche grâce aux différents domaines auxquels se référent les mots-clefs, puis grâce, notamment aux méta-informations, renvoyer les pages les plus pertinentes.
- Renvoyer les pages qui ont le plus de liens qui pointent vers elles, car si beaucoup y font référence, c’est certainement que c’est un site de qualité.

A présent vous voilà parez pour les notes suivantes en espérant que celle-ci vous aura plu.

Quelques moteurs de recherche

Tags :  Exalead, Google, MSN, Yahoo, Altavista