reCAPTCHA, ou une (autre) idée géniale...

Ecoutez

Ce matin, je rassemblais quelques scans en pdf quand j’ai eu l’idée d’essayer la fonction de détection OCR (optical character recognition). Cela consiste à rechercher du texte dans les images pour pouvoir l’extraire. Techniquement -et rapidement- le logiciel compare le symbole détecté aux lettres connues en essayant de les superposer et en choisit la meilleure.

De façon encore plus simple, c’est un peu l’inverse d’une impression. L’imprimante transforme le texte numérique en texte dactylographié alors que la numérisation et détection OCR prend le texte dactylographié pour le transformer en texte numérique. Ce n’est pas nouveau mais je n’avais pas essayé depuis des années car je n’en gardais pas un très bon souvenir : A l’époque, plus d’un mot sur quatre était mal interprété... Aujourd’hui, je n’ai constaté que quelques erreurs et j’ai vraiment été bluffé.

Numériser des livres est un problème majeur et toujours d’actualité. En effet, cela permet de diffuser les connaissances plus facilement mais aussi de mieux les préserver des dégâts du temps... Lire un livre au format PDF ne l’altère pas et les lecteurs suivants, même beaucoup plus tard, ne constatent aucune dégradation. Il n’y a certes pas la même sensation et il faudrait prévenir les éditeurs que c’est un peu l’arnaque de vendre les versions numériques juste un euro de moins que la version papier... Message passé, "ça c’est fait" comme dirait l’autre.

Toujours est-il qu’il est évident que dactylographier manuellement tous les anciens livres seraient un travail de titan, c’est pour éviter cela qu’ont été inventés les logiciels de détection OCR. Ainsi il n’y avait qu’à vérifier le contenu et à corriger la transcription proposée. Si tout se passait bien comme cela, le monde serait merveilleux et les éléphants seraient roses... Pour les livres très anciens, i.e. très altérés par le temps, la détection OCR ne fonctionne plus. En effet, les lettres ne sont plus que de gros pâtés donnant l’impression que c’est mon voisin de classe qui les a "écrites"... Plus aucune lettre n’est alors réellement identique au pâté et le logiciel est contraint de choisir la moins mauvaise. On transforme ainsi aisément le mot "blog" en "oiac", ce qui est (sensiblement) différent...

J’en arrive au véritable sujet de cet article. Il nous arrive à tous d’avoir des idées brillantes (au moins pour notre vie quotidienne) mais certaines sont plus remarquables que d’autres... Comment faire si la machine ne peut parvenir à décrypter les gros pâtés ? Prendre une consultation chez ceux qui sont habitués à en faire (non je n’ai pas parlé des médecins...) pour qu’ils nous les lisent ? C’est une idée mais cela risque d’être assez onéreux à force...

On peut faire cela plus discrètement et plus utilement. C’est ce que reCAPTCHA a fait. D’une pierre, deux coups. Je suis quasiment certain que vous avez déjà croisé leur signature sur internet :

Comme vous l’aurez remarqué, il s’agit d’un système CAPTCHA, comme on l’appelle, c’est-à-dire la vérification que vous êtes bien une personne et non un programme malveillant en vous demandant de recopier un texte qu’une machine ne serait pas capable de lire (c’est-à-dire des mots difficilement détectables via OCR).

Vous ne trouvez pas ça idiot vous de vous demander de recopier deux mots alors qu’un seul suffirait ? Et vous ne trouvez pas ça complètement débile de vous demander de recopier des mots qui sont difficilement visibles même pour vous ? Je suis d’accord avec vous... Enfin, je l’étais avant de connaitre la véritable utilité du système.

En effet, l’un des deux mots est connu par le système de vérification. C’est lui qui va servir à vérifier que vous avez correctement recopier les mots et donc s’assurer que vous n’êtes pas une machine. Ensuite, le deuxième mot est un mot que les systèmes OCR n’ont pas réussi à décrypter. Ainsi, si vous avez le bon premier mot, reCAPTCHA en déduit qu’il y a une forte probabilité pour que le deuxième soit vrai aussi. Après plusieurs réponses identiques pour un même mot inconnu, il est donc convaincu de sa transcription... Tadam ! Magie !

Tout cela pour vous dire de ne plus vous énerver quand vous verrez ce système. Vous participez à la numérisation de nombreux livres tout en montrant votre caractère humain au site... Et si vous voulez aider le projet dès maintenant ou juste essayer, c’est par ici !

Réagissez à l'article

14 réactions à cet article

zelectron 14 avril 2010 17:13

La digitalisation à la Google n’est pas « OCR » cette ambiguïté sert l’image de marque de l’entreprise mais pas l’intérêt général, c’est beaucoup plus rapide de « photographier en digital approximatif » sans se soucier des contrastes voire de la couleur que de prendre soin de corriger, interpréter, reconstituer...

Répondre Signaler un abus Lien permanent
- Deneb 15 avril 2010 10:57
  
  Google fait un premier boulot. Il se trouvera bien quelqu’un pour passer ensuite les pages scannés en OCR. Surtout que ce système n’a pas fini de se développer. Il y en a beaucoup qui pensent que Google en fait trop, vous, vous pensez qu’il en fait pas assez .... Faudrait savoir !
  
  Répondre Signaler un abus Lien permanent
- Traroth 14 avril 2010 19:21
  
  Désolé, mais je ne fais pas de bénévolat pour les entreprises. reCAPTCHA est une filiale de Google. S’ils veulent que je travaille pour eux, je ne suis pas contre, mais je veux être payé !
  
  Répondre Signaler un abus Lien permanent
  - Joël Favre 14 avril 2010 20:32
    
    Là est tout le débat, puisque ce sont des livres qui sont tombés dans le domaine public et mis à dispositions gratuitement par Google, moyennant de la publicité.
    
    Est-ce qu’on est d’accord de pouvoir consulter facilement et gratuitement des livres du domaine public et laisser s’enrichir Google ? ou on est contre ?
    
    Répondre Signaler un abus Lien permanent
  - Traroth 15 avril 2010 10:40
    
    Et pourquoi ne pas plutôt soutenir le projet Gutenberg ou Wikisource ?
    
    http://fr.wikisource.org
    http://www.gutenberg.org/wiki/Main_Page
    
    Répondre Signaler un abus Lien permanent
  - Traroth 15 avril 2010 10:42
    
    ...parce que rien ne garantie que parce qu’ajourd’hui, Google propose ce service gratuitement (pour ne pas décourager les bonnes volontés, par exemple), il en sera de même demain !
    
    Répondre Signaler un abus Lien permanent
  - Deneb 15 avril 2010 10:59
    
    Il pourront toujours faire payer une fois que tout le monde a pompé ce qui l’intéresse.
    
    Répondre Signaler un abus Lien permanent
  - Traroth 15 avril 2010 13:14
    
    Tout le monde ? C’est qui, ça, tout le monde ?
    
    La réalité, c’est que la plupart des gens ne sont même pas conscients de ce qui se passe, et si Google rend ce service payant, ils passeront à la caisse comme de bons petits consommateurs sans même réaliser qu’on vient de les blouser !
    
    Répondre Signaler un abus Lien permanent
  - Deneb 15 avril 2010 15:36
    
    Traroth ; qui vivra verra, mais je pense que tu es franchement à coté de la plaque
    
    Répondre Signaler un abus Lien permanent
  - stephanemot 15 avril 2010 04:58
    
    Completely Automated Private Takeover to tear Competitors and Humans Apart ?
    
    http://mot-bile.blogspot.com/2009/09/gotcha-google-learns-to-read-with.html
    
    Répondre Signaler un abus Lien permanent
    - Nicolas DESMARETS 15 avril 2010 11:21
      
      Je constate en fait que le débat s’oriente vers « Google is god » ou « Google is evil » (surtout ce coté-là d’ailleurs). Mais cette idée n’est tout d’abord pas sorti de chez Google... Google a acquit le projet certes, est-ce pour cela que l’idée est mauvaise et inintéressante ?
      
      Concernant le coté « Google s’enrichit sur le dos des utilisateurs », pensez-vous vraiment que si une autre entreprise avait les moyens de mettre autant de livres à disposition, elle n’essaierait pas (déjà) de rembourser le cout des infrastructures (et ensuite de faire des bénéfices si possible). Il faut tout de meme une (très) grosse infrastructure pour proposer cela et c’est sur que Google l’a... Est-ce réellement un mal ?
      
      Oui, Google est une grosse entreprise et il faut faire attention à ce qu’elle ne devienne pas Big Brother. Oui, la société a beaucoup d’argent. Et bien, moi, je suis content de voir qu’il investisse dans des projets culturels aussi, qui facilitent l’accès à la connaissance...
      
      Et à l’affirmation « Cela risque de devenir payant... », je dirais que justement le fait que Google y affiche sa pub garantit que cela va perdurer à terme. C’est son business model, la pub. Dans le pire des cas, ils feront une option Premium pour ceux qui ne veulent pas afficher la pub...
      
      Je ne suis pas un partisan de Google mais quand il s’agit de bonnes idées, je ne ferme pas les yeux dessus...
      
      Répondre Signaler un abus Lien permanent
      - Traroth 15 avril 2010 13:17
        
        Technologiquement, l’idée est tout à fait novatrice, effectivement. Mais Google n’est pas bon ni mauvais, Google est une entreprise et donc foncièrement intéressé par ses propres profits. Et si le maximum de profits, c’est de faire payer pour accéder à un fond documentaire précédemment gratuit, c’est exactement ce qu’ils feront !
        
        Répondre Signaler un abus Lien permanent
      - Nicolas DESMARETS 15 avril 2010 15:59
        
        Certes, Google est une entreprise qui souhaite faire des profits mais depuis quand fait-elle payer ses services ? Son business model est clairement défini et n’est caché à personne : offrir des services gratuits en y apposant ses liens sponsorisés. Je suis même certain que cela leur rapporte plus que s’ils faisaient payer un abonnement aux utilisateurs...
        
        C’est le mode de fonctionnement de la société depuis le début. Et, à voir les bénéfices engendrés (et surement revus à la baisse), ça fonctionne très bien. Ils n’ont aucune raison de changer cela. On peut avoir peur de Google pour la gestion de notre vie privée ou pour l’énorme monopole qui s’installe mais pas pour la non-gratuité future des services...
        
        Google sait très bien que si le service devenait payant, de nombreux internautes l’abandonneraient (moi le premier). C’est fini le temps où tout le monde disait amen à tout, les gens ne sont pas crédules... La psychologie de Google est élémentaire : « J’offre ça aux utilisateurs. Comme c’est gratuit, ils ne vont pas se retenir et l’utiliser à donf. Ma pub va s’afficher elle aussi à donf et mes profits vont rentrer rapidement... »
        
        Oui c’est du fric sur le dos des utilisateurs, comme diront certains... Mais c’est gratuit... Après, c’est à l’utilisateur de choisir... L’entreprise devra se rentabiliser d’une façon ou d’une autre. La façon qu’a choisit Google (échange gratuité des services contre publicité affichée) est largement rentable, il ne la lâchera pas de si tôt...
        
        Répondre Signaler un abus Lien permanent
      - dapeacemaker911 15 avril 2010 12:43
        
        moteur de recherche = controle de l acces a l information = service d utilité publique ?
        
        houla.... je crois que j ai dis un gros mot...
        
        Répondre Signaler un abus Lien permanent