Une très belle idée, magnifique démonstration de la puissance du web : proposer à tous ceux qui ont besoin d’installer un captcha d’installer plutôt un reCaptcha : un captcha alimenté par les mots sur lesquels « butent » les OCR, et que les visiteurs utilisateurs du captcha sont invités à désambiguiser. Installez ce système sur votre blog : vos visiteurs contribueront au travail de numérisation d’Internet Archive.
Vous avez probablement déjà rencontré un « captcha » dans vos pérégrinations sur le web. A la fin d’un formulaire, des lettres déformées s’affichent à l’écran, et vous êtes prié(e) de les déchiffrer et de les saisir dans un champ de texte. Ce faisant, vous prouvez que vous êtes un être humain et non un robot (et en particulier un vilain robot spammeur), parce que bon, les robots sont malins, certes, mais on peut les avoir assez facilement, juste en tordant un peu des lettres.
C’est justement à ce problème de lettres un peu déformées que se heurtent les logiciels de reconnaissance de caractères (OCR) utilisés pour numériser les livres anciens. Les pages sont scannées, puis l’image issue du scanner est transformée en texte, automatiquement, grâce à l’OCR. Un certains nombres de mots ne sont pas identifiables par l’OCR : la page a été altérée, les lettres sont déformées : un intervention humaine est alors nécessaire. Et quelle est la nature de cette intervention, si ce n’est exactement l’action que demande le captcha à l’internaute ?
(via Alain Pierrot, qui m’a envoyé le lien par mail).
Brillant!
Pour ceux d’entre vous qui ne lisent pas Wired: http://www.wired.com/techbiz/it/magazine/15-07/ff_humancomp?currentPage=all