Yahoo : Pages manquantes ?
A la suite de la publication de la nouvelle taille d’index de Yahoo (près de 20 milliards de pages), divers internautes ont noté que quelque chose ne va pas dans les comptes... Dans un commentaire sur mon billet précédent, Béatrice Foenix-Riou, (rédac-chef de Bases-Publications) observe par exemple que si l’on tape la requête "azoïque", Yahoo nous promet 2380 résultats, mais que ce chiffre diminue au fur et à mesure qu’on progresse dans les pages de résultats. Au final, on n’en obtient que 329...

Yahoo nous dit : "Afin de ne vous montrer que les résultats les plus pertinents, nous avons omis certains résultats très similaires à ceux déjà affichés. Pour voir l’ensemble des résultats, vous pouvez relancer la recherche en y incluant les résultats occultés." Google offre un mécanisme comparable. Comme de nombreux sites ont des doublons de documents ou des quasi-doublons, cela paraît être une bonne idée... Le problème que note Béatrice, c’est que même en cliquant sur "Relancer la recherche", on n’obtient que 576 résultats. Elle demande à juste titre où sont passées les pages manquantes (1804, tout de même !)...
Sur la même requête, Google renvoie 360 résultats dé-doublonnés, et 623 après avoir relancé la recherche aux pages à contenu similaire, donc dans les deux cas, plus que Yahoo, malgré une taille d’index auto-proclamée inférieure à la moitié. Charlene Li de Forrester Research me signale le même problème (elle développe ici), et Aki nous livre une analyse détaillée sur son blog) . La conclusion qu’en tirent certains commentateurs est que Yahoo nous "bidonnerait" à son tour...
Je n’ai aucune complaisance vis-à-vis de Yahoo, et on aura certainement noté le point d’interrogation dans le titre de mon billet
annonçant l’augmentation de son index ;-) Je me suis d’ailleurs posé des questions dès le mois de mars lorsque Yahoo a doublé ses comptes du jour au lendemain de façon inexplicablement parfaite [ici]... Je serais donc le premier à dénoncer le flagrant délit de bidonnage si j’avais une preuve solide. Or, je ne crois pas que l’on puisse se baser sur ces observations pour affirmer que Yahoo nous ment sur la taille de son index.
C’est particulièrement visible sur les fichiers pdf (thèses, rapports, etc.) qui peuvent faire plusieurs centaines de pages. Il est manifeste que Yahoo indexe une partie bien plus petite des documents que Google. J’en veux pour preuve l’exemple suivant. La requête "azoïque" suggérée par Béatrice retourne avec Google un document pdf très pertinent, une thèse de chimie organique de l’école Polytechnique. Ce document n’est pas retourné par Yahoo sur la même requête. Or, il existe dans la base Yahoo, comme le montre cette requête sur son titre : "Principes de chimie radicalaire".
Le seul problème c’est que le mot apparaît la première fois à la page 16, au bout de 15 200 caractères seulement, mais Yahoo ne l’a pas indexé. Google, lui ne cale que vers la page 68 (il ne trouve pas glycinate à la page 69 mais trouve chlorosuccinimide à la page 68, qui se trouve à 86 600 caractères du début...). Cela se voit très bien sur la version HTML en cache.
Cela explique sans doute que même si Yahoo a repertorié globalement plus de documents pdf que Google, il en retrouve moins sur une requête donnée
comme "azoïque". Dans ce cas précis, Yahoo ne retrouve que 77 documents pdf contenant ce mot (sans redondance) contre 124 pour Google. Il en va sans doute de même avec les fichiers .doc, .ppt, etc.
Si l’on exclut les fichiers pdf, Yahoo autant de documents que Google et même un peu plus :
Yahoo | Y/G | ||
---|---|---|---|
124 | 77 | 62% | |
autres | 236 | 254 | 108% |
Total | 360 | 331 | 92% |
Yahoo | Y/G | ||
---|---|---|---|
182 | 119 | 65% | |
autres | 441 | 467 | 106% |
Total | 623 | 586 | 94% |
Tout ce que nous pouvons affirmer jusqu’ici c’est que Yahoo indexe moins bien les fichiers pdf que Google. Nous ne pouvons pas en conclure qu’il nous mentirait sur la taille de son index en nombre de documents. Nous ne pouvons pas non plus, bien évidemment, confirmer cette taille ;-)
Ajouter une réaction
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
FAIRE UN DON