reCAPTCHA, ou une (autre) idée géniale...
Ce matin, je rassemblais quelques scans en pdf quand j’ai eu l’idée d’essayer la fonction de détection OCR (optical character recognition). Cela consiste à rechercher du texte dans les images pour pouvoir l’extraire. Techniquement -et rapidement- le logiciel compare le symbole détecté aux lettres connues en essayant de les superposer et en choisit la meilleure.
De façon encore plus simple, c’est un peu l’inverse d’une impression. L’imprimante transforme le texte numérique en texte dactylographié alors que la numérisation et détection OCR prend le texte dactylographié pour le transformer en texte numérique. Ce n’est pas nouveau mais je n’avais pas essayé depuis des années car je n’en gardais pas un très bon souvenir : A l’époque, plus d’un mot sur quatre était mal interprété... Aujourd’hui, je n’ai constaté que quelques erreurs et j’ai vraiment été bluffé.
Numériser des livres est un problème majeur et toujours d’actualité. En effet, cela permet de diffuser les connaissances plus facilement mais aussi de mieux les préserver des dégâts du temps... Lire un livre au format PDF ne l’altère pas et les lecteurs suivants, même beaucoup plus tard, ne constatent aucune dégradation. Il n’y a certes pas la même sensation et il faudrait prévenir les éditeurs que c’est un peu l’arnaque de vendre les versions numériques juste un euro de moins que la version papier... Message passé, "ça c’est fait" comme dirait l’autre.
Toujours est-il qu’il est évident que dactylographier manuellement tous les anciens livres seraient un travail de titan, c’est pour éviter cela qu’ont été inventés les logiciels de détection OCR. Ainsi il n’y avait qu’à vérifier le contenu et à corriger la transcription proposée. Si tout se passait bien comme cela, le monde serait merveilleux et les éléphants seraient roses... Pour les livres très anciens, i.e. très altérés par le temps, la détection OCR ne fonctionne plus. En effet, les lettres ne sont plus que de gros pâtés donnant l’impression que c’est mon voisin de classe qui les a "écrites"... Plus aucune lettre n’est alors réellement identique au pâté et le logiciel est contraint de choisir la moins mauvaise. On transforme ainsi aisément le mot "blog" en "oiac", ce qui est (sensiblement) différent...
J’en arrive au véritable sujet de cet article. Il nous arrive à tous d’avoir des idées brillantes (au moins pour notre vie quotidienne) mais certaines sont plus remarquables que d’autres... Comment faire si la machine ne peut parvenir à décrypter les gros pâtés ? Prendre une consultation chez ceux qui sont habitués à en faire (non je n’ai pas parlé des médecins...) pour qu’ils nous les lisent ? C’est une idée mais cela risque d’être assez onéreux à force...
On peut faire cela plus discrètement et plus utilement. C’est ce que reCAPTCHA a fait. D’une pierre, deux coups. Je suis quasiment certain que vous avez déjà croisé leur signature sur internet :
Comme vous l’aurez remarqué, il s’agit d’un système CAPTCHA, comme on l’appelle, c’est-à-dire la vérification que vous êtes bien une personne et non un programme malveillant en vous demandant de recopier un texte qu’une machine ne serait pas capable de lire (c’est-à-dire des mots difficilement détectables via OCR).
Vous ne trouvez pas ça idiot vous de vous demander de recopier deux mots alors qu’un seul suffirait ? Et vous ne trouvez pas ça complètement débile de vous demander de recopier des mots qui sont difficilement visibles même pour vous ? Je suis d’accord avec vous... Enfin, je l’étais avant de connaitre la véritable utilité du système.
En effet, l’un des deux mots est connu par le système de vérification. C’est lui qui va servir à vérifier que vous avez correctement recopier les mots et donc s’assurer que vous n’êtes pas une machine. Ensuite, le deuxième mot est un mot que les systèmes OCR n’ont pas réussi à décrypter. Ainsi, si vous avez le bon premier mot, reCAPTCHA en déduit qu’il y a une forte probabilité pour que le deuxième soit vrai aussi. Après plusieurs réponses identiques pour un même mot inconnu, il est donc convaincu de sa transcription... Tadam ! Magie !
Tout cela pour vous dire de ne plus vous énerver quand vous verrez ce système. Vous participez à la numérisation de nombreux livres tout en montrant votre caractère humain au site... Et si vous voulez aider le projet dès maintenant ou juste essayer, c’est par ici !
14 réactions à cet article
Ajouter une réaction
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
FAIRE UN DON