• AgoraVox sur Twitter
  • RSS
  • Agoravox TV
  • Agoravox Mobile

Accueil du site > Actualités > Technologies > Les pages manquantes de Yahoo : nouveaux rebondissements ?

Les pages manquantes de Yahoo : nouveaux rebondissements ?

Depuis que j’ai publié la première partie de cette étude, l’affaire des pages manquantes de Yahoo fait grand bruit. Google a annoncé que ses chercheurs ne croyaient pas aux chiffres annoncés par leur concurrent (voir ici), et une étude détaillée du NCSA (University of Illinois at Urbana-Champaign) semble confirmer de façon très claire le phénomène que je décrivais dans mon précédent billet : sur des requêtes qui retournent moins de 1000 pages, Google renvoie systématiquement plus de résultats que Yahoo, ce qui semble contredire le fait que son index serait deux fois et demie plus important que celui de Google.



Malheureusement l’étude des chercheurs du NCSA pêche par plusieurs aspects. Tout d’abord, comme je l’ai montré dans ma première partie, Yahoo indexe beaucoup moins profondément les documents longs. Par conséquent, même si Yahoo ne ment pas la taille de son index en nombre de documents, cela peut expliquer partiellement le plus petit nombre de documents retournés sur certaines requêtes. Le document est parfois bien dans la base, mais il n’est pas accessible par des mots clés qui n’apparaissent pas dans son début. C’est le cas par exemple du document "Depression and soul-loss" au format pdf, que retourne Google sur la requête inabilities hydrocephalic, mais que ne retourne pas Yahoo sur la même requête, bien qu’il soit dans sa base (ici).

Toutefois, l’étude du NCSA contient une erreur méthodologique

bien plus profonde, qui invalide totalement ses conclusions. Les auteurs ont tiré au sort des mots du dictionnaire informatique ispell et les ont présentés par couples aux deux moteurs de recherche. Cette façon de procéder conduit à une absurdité, car les chances que de vrais documents contiennent deux mots tirés au hasard dans un très gros dictionnaire sont à peu près nulles. Les chercheurs en question sont quasiment assurés de ramener une majorité d’artefacts (listes de mots et spam). Si l’un des deux moteurs en ramène moins, on ne peut que louer son mécanisme de filtrage, et en aucun cas extrapoler les chiffres obtenus à son comporterment général et à la taille de son index.

On remarquera par exemple que sur la première requête utilisée par les chercheurs du NCSA, carbolization clambers, les seuls résultats ramenés par Google (et que ne ramène pas Yahoo) sont des pages consistant en de simples listes de mots — dont la plupart semble être des copies du dictionnaire ispell lui-même.

Le document suivant est caractéristique :

Il est constitué par un fichier de 1,3 Mo, qui comporte 134175 mots et semble être une copie d’ispell. Il n’est pas retrouvé par Yahoo sur la même requête et il semble bien ne pas figurer dans la base de données de ce moteur. Par contre, la base de données Yahoo contient cinq autres documents (apparemment identiques) que ne contient pas Google (via la requête wspears dictionary site:www.cs.uwyo.edu) :
Il est intéressant de noter que ces documents sont les seuls parmi les 29 retournés par ma requête à n’être pas indexés dans la base Yahoo, et que seule leur URL y figure. Soit Yahoo reconnaît, par exemple à travers un calcul de signature quelconque qu’il s’agit du dictionnaire ispell, soit il possède un filtre lui permettant de détecter les documents qui sont de simples listes de mots (ce n’est pas très compliqué à imaginer). C’est un comportement parfaitement intelligent, qui est à mettre au crédit du moteur !

Le lecteur pourra consulter la liste de requêtes

fournies par les auteurs, et pourra vérifier que, dans une écrasante majorité des cas retenus (c’est-à-dire ceux ramenant moins de 1000 résultats), les résultats en question sont des listes et du spam. Les requêtes qui échapperaient à cette règle comme cultist email ont justement été éliminées par les auteurs parce qu’elles retournent plus de 1000 résultats.

En procédant ainsi, les chercheurs du NCSA n’ont démontré qu’une chose : la capacité supérieure de Google à indexer des listes de mots dont le dictionnaire ispell, et du spam. Ils n’ont en aucun cas apporté la preuve que l’index de Yahoo serait plus petit (en nombre de documents indexés) que celui de Google.

Bien au contraire, si l’on regarde les même sites que ceux où Yahoo "oublie" les copies d’ispell, on s’aperçoit qu’il indexe généralement beaucoup plus de documents pertinents que son concurrent. Par exemple, sur le site www.cs.uwyo.edu mentionné précédemment, Yahoo annonce 1630 résultats pour la requête wspears site:www.cs.uwyo.edu, et j’ai vérifié que les 1000 premiers existent bien. Google

n’en retourne que 289 (dont 249 en omettant les "résultats similaires"). En fait à partir du 200ème environ, il s’agit de simples URLs dont le contenu n’est pas indexé, alors que les 1000 premiers de Yahoo sont indexés. On a un facteur 5 en faveur de Yahoo...


L’étude du NCSA contient un autre biais considérable, que les auteurs pressentent, puisqu’ils donnent prudemment leurs hypothèses de travail en début de leur article :
The study operates under two working assumptions. The first is that both the Yahoo ! and the Google search engine return all the results that match the particular keywords and does not do any filtering beyond removing duplicate results.
C’est justement là que le bât blesse, car tout indique que ces conditions ne sont pas respectées. Je montrerai dans la troisième partie de cette article que ce problème finit d’invalider l’étude des chercheurs du NCSA, et des études du même type.

Moyenne des avis sur cet article :  (0 vote)




Ajouter une réaction

Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page

Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.


FAIRE UN DON






Les thématiques de l'article


Palmarès