Reconnaissance de caractéres

Added by Benoit PIERRET about 9 years ago

J'ai regardé ce qui existait sur la reconnaissance de caractères pour linux.
La seule solution libre viable semble être tesseract-ocr:
https://code.google.com/p/tesseract-ocr/

Il est possible de faire de la reconnaissance manuscrite.
Voir cette publication pour plus de détails:
http://arxiv.org/ftp/arxiv/papers/1003/1003.5898.pdf

Le taux de reconnaissance est de 90% sur ces tests.
Il devrait donc être possible d'identifier les étudiants avec ce procédé (a coupler éventuellement avec la reconnaissance des noms).
Pour les réponses numériques, c'est plus délicat mais peut-être pas impossible si on cale correctement les caractères.

Si ça intéresse les développeurs, je peux faire des tests sur mon prochain grand échantillon de copies.

Si d'autres sont intéressés par des tests, la version optimiste de ligne de commande pour obtenir des nombres est:

tesseract imagename outputbase digits

imagename est le nom du fichier image
outputbase est le nom du fichier texte des caractères reconnus