Saisie automatique impossible (Bug #235)


Added by Adèle Sanchez over 11 years ago. Updated over 10 years ago.


Status:Closed Start date:10/26/2013
Priority:Normal Due date:
Assignee:- % Done:

100%

Category:LaTeX
Target version:-

Description

Après avoir généré le fichier avec toutes les questions et scanné les réponses, je réouvre le projet et je vais dans l'onglet Saisie.

Je sélectionné le bouton "Automatique" et j'indique le fichier PDF concerné ainsi que l'option "Copier les scans" et Copies toutes différentes puis je Valide.

L'extraction commence, de même que la conversion en image bitmap. Après quelques secondes, une fenêtre surgissante m'indique que le travail est terminé mais aucune copie n'est importée.

Lorsque je relance AMC à partir de la ligne de commande, l'erreur suivante est indiquée lors de l'import :
"Use of uninitialized value in string ne at /usr/lib64/AMC/perl/AMC-gui.pl line 4573.
GPL Ghostscript 9.10: Unrecoverable error, exit code 1
gm convert: "gs" "-q" "-dBATCH" "-dMaxBitmap=50000000" "-dNOPAUSE" "-sDEVICE=ppmraw" "-dTextAlphaBits=4" "-dGraphicsAlphaBits=4" "-r300x300" "-sOutputFile=/tmp/gmmHGKbI" "--" "/tmp/gmwQlOjg" "-c" "quit".
Use of uninitialized value in numeric gt (>) at /usr/lib64/AMC/perl/AMC-gui.pl line 5136."

Je n'ai pas réussi à trouver une erreur similaire. Savez-vous comment je peux la corriger ?

Merci


lot1_copie1.zip - Resultat de pdfimages lot1_page1.pdf /tmp/images (233 kB) Adèle Sanchez, 10/29/2013 09:40 pm

lot1_page1.pdf - Fichier PDF source (71.9 kB) Adèle Sanchez, 10/29/2013 09:40 pm


History

Updated by Alexis Bienvenüe over 11 years ago

Il me semble qu'AMC n'a pas pu convertir le fichier de scans PDF en fichiers image.
Dans les versions récentes, AMC utilise pdfimages — vous pouvez essayer de le faire à la main pour voir si cela marche mieux :

pdfimages scan.pdf /tmp/images
Vous obtenez des images avec des noms de fichiers qui commencent par /tmp/images, que vous pouvez transmettre à AMC.

Updated by Adèle Sanchez over 11 years ago

La commande produit plein de fichiers, beaucoup plus que de nombre de pages puisque je dois avoir 170 images pour 60 pages.

Lorsque j'ouvre le contenu à partir de la visionneuse d'image ou de GIMP, le contenu est pratiquement illisible. Tu trouveras un exemple de copie et le résultat produit par pdfimages. Cela me semble assez étrange comme conversion. Tu obtient un tel résultat ?

Updated by Alexis Bienvenüe over 11 years ago

Est-ce que le PDF provient directement d'un scanner ?

Updated by Adèle Sanchez over 11 years ago

J'ai scanné les 60 pages avec le photocopieur Canon C5051. Il m'a sorti 1 PDF dont j'ai extrait la page d'exemple avec PDF Mod.

Chez moi le résultat de pdfimage est similaire que cela soit sur l'original ou la page d'exemple, ce n'est pas ton cas ?

Je peux essayer de trouver un scanner différent si cela vient de là.

Updated by Alexis Bienvenüe over 11 years ago

C'est peut-être à cause d'un traitement effectué par le scanner sur les images scannées (par exemple pour essayer d'en extraire du texte) : avez-vous utilisé par exemple une option du genre OCR (text searchable) lors du scan ? Si c'est le cas, pouvez-vous essayer sans ?
Sinon, pouvez-vous demander un scan dans un format image (TIFF, JPEG, etc.) ? Ça sera mieux que du PDF.
Sinon, il faudrait trouver une commande qui convertit votre PDF en fichiers image (un par page).

Updated by Adèle Sanchez over 11 years ago

J'ai laissé les options par défaut lors du scan, je regarderai quels sont les paramètres.

Pour obtenir une image, j'ai essayé de sortir le PDF via PDFCreator mais j'ai obtenu le même résultat. Par contre imagemagick a été efficace puisque j'ai obtenu une image de bonne qualité avec la commande suivante

convert -density 300 lot1_page1.pdf /tmp/images/test1.jpg

J'essayerai de voir s'il est possible de sortir 1 image par page ou s'il d'abord découper le fichier et puis surtout je testerai pour voir si ces images peuvent être fournies à AMC.

En tout cas merci pour ton aide, je te tiendrai informé de l'avancement.

Updated by Alexis Bienvenüe over 11 years ago

Si ça marche avec convert, vous devriez pouvoir forcer AMC à l'utiliser (je ne sais plus à partir de quelle version) en sélectionnant Edition/Préférences/Scan/Forcer la conversion.

Updated by Adèle Sanchez over 11 years ago

Après avoir regardé la documentation et les paramètres du scanner, il s'avère que le service informatique à bien activité la reconnaissance OCR par défaut... et qu'il l'a même verrouillée pour ne pas que ce réglage puisse être désactivé.

Étant donné que convert arrivait bien à produire une image de la page de test, je lui ai donné le PDF complet de 60 pages. Au lieu d'avoir 60 images je n'ai rien eu du tout puisqu'il s'est mis à occuper toute la mémoire vive... ainsi que la mémoire virtuelle puis s'est fait tuer par l'ordonnanceur une dizaine de minutes après son lancement avec un laconique "out of memory".

Pour parvenir à fournir les images à AMC j'ai procédé ainsi :
1) Découper le fichier PDF pour avoir autant de fichiers PDF que de pages : pdfseparate ~Documents/Cours/Scan_copies.pdf /tmp/PDF/sortie-%d.pdf
2) Convertir chaque fichier PDF en une image : for i in /tmp/PDF/*; do convert -density 300 $i /tmp/images/$i-e.pjeg; done

Le découpage s'est réalisé en moins d'une seconde tandis que la conversion a nécessité 2 minutes. C'est donc un moyen très rapide qui pourra peut-être servir à d'autres personnes.

Merci Alexis pour l'aide que tu nous apporte et pour ce merveilleux logiciel !

Updated by Alexis Bienvenüe over 10 years ago

  • % Done changed from 0 to 100
  • Status changed from New to Closed

Also available in: Atom PDF