Moteurs : liens morts-vivants
Il me semble qu’il y a quelques années, les moteurs retournaient plus souvent des liens morts dans leurs résultats de requêtes. Ces temps-ci, cela arrive encore, mais c’est bien rare... Pour en avoir le coeur net, j’ai vérifié les 4200 résultats retournés par les 70 requêtes sur les six moteurs que je suis en train d’analyser avec mes étudiants [voir début de l’enquête : 1 et 2], et effectivement, cette impression se confirme : pas plus de quelques pour cents d’erreurs (codes d’erreur 4xx, dont le célèbre 404, "Page not found", et 5xx). La situation est toutefois assez différente selon les moteurs, puisque le taux d’erreurs varie du simple au triple, comme le montre le diagramme suivant :

J’avoue que je ne m’attendais pas à ce classement. On voit que le leader, Google, est dans une bonne moyenne (3,7%), avec son challenger immédiat Yahoo (4,7%). Les meilleurs sont MSN et Voila (contre toute attente, étant donné l’état de relatif abandon de ce dernier, que je dénonçais dans un précédent billet), avec 1,9% d’erreurs. Exalead et Dir sont moins bons, avec respectivement 6,1% et 6,6% d’erreurs : en gros, un lien mort pour chaque écran et demi de résultats, mais ça n’est pas, somme toute, catastrophique (surtout avec des moyens bien plus limités que les "grands").
Ces écarts révèlent sans doute des stratégies différentes de crawling (et notamment la fréquence de rafraîchissement). La position relativement moyenne de Google et Yahoo peut sans doute s’expliquer par le fait que leurs bases sont de loin les plus importantes à l’heure actuelle, et qu’elles sont évidemment plus difficiles à maintenir. Tout l’art du crawl consiste à trouver un compromis acceptable entre la fréquence de rafraîchissement et les ressources informatiques disponibles...
De toutes façons, le 0% d’erreur est impossible à obtenir : il y aura toujours, ici ou là, un serveur en panne ou un problème réseau quelconque, même si la page existe toujours. De plus, Philippe Develter (Dir.com) me fait remarquer qu’il n’est pas inintéressant de conserver des pages qui retournent une erreur 404, puisque les liens morts sont toujours vivants dans le cache, et que l’information en question est même datée : les moteurs jouent quelque peu le rôle de mini Wayback Machines. Je reconnais que j’utilise moi-même cette fonctionnalité assez souvent. Donc, c’est peut-être paradoxal, mais le nombre de liens morts n’est peut-être pas un bon indicateur de qualité !
Ajouter une réaction
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
FAIRE UN DON