Saisie automatique impossible (Bug #235)
Description
Après avoir généré le fichier avec toutes les questions et scanné les réponses, je réouvre le projet et je vais dans l'onglet Saisie.
Je sélectionné le bouton "Automatique" et j'indique le fichier PDF concerné ainsi que l'option "Copier les scans" et Copies toutes différentes puis je Valide.
L'extraction commence, de même que la conversion en image bitmap. Après quelques secondes, une fenêtre surgissante m'indique que le travail est terminé mais aucune copie n'est importée.
Lorsque je relance AMC à partir de la ligne de commande, l'erreur suivante est indiquée lors de l'import :
"Use of uninitialized value in string ne at /usr/lib64/AMC/perl/AMC-gui.pl line 4573.
GPL Ghostscript 9.10: Unrecoverable error, exit code 1
gm convert: "gs" "-q" "-dBATCH" "-dMaxBitmap=50000000" "-dNOPAUSE" "-sDEVICE=ppmraw" "-dTextAlphaBits=4" "-dGraphicsAlphaBits=4" "-r300x300" "-sOutputFile=/tmp/gmmHGKbI" "--" "/tmp/gmwQlOjg" "-c" "quit".
Use of uninitialized value in numeric gt (>) at /usr/lib64/AMC/perl/AMC-gui.pl line 5136."
Je n'ai pas réussi à trouver une erreur similaire. Savez-vous comment je peux la corriger ?
Merci
History
Updated by Alexis Bienvenüe over 11 years ago
Il me semble qu'AMC n'a pas pu convertir le fichier de scans PDF en fichiers image.
Dans les versions récentes, AMC utilise pdfimages — vous pouvez essayer de le faire à la main pour voir si cela marche mieux :
pdfimages scan.pdf /tmp/imagesVous obtenez des images avec des noms de fichiers qui commencent par
/tmp/images
, que vous pouvez transmettre à AMC.Updated by Adèle Sanchez over 11 years ago
La commande produit plein de fichiers, beaucoup plus que de nombre de pages puisque je dois avoir 170 images pour 60 pages.
Lorsque j'ouvre le contenu à partir de la visionneuse d'image ou de GIMP, le contenu est pratiquement illisible. Tu trouveras un exemple de copie et le résultat produit par pdfimages. Cela me semble assez étrange comme conversion. Tu obtient un tel résultat ?
- File lot1_copie1.zip added
- File lot1_page1.pdf added
Updated by Alexis Bienvenüe over 11 years ago
Est-ce que le PDF provient directement d'un scanner ?
Updated by Adèle Sanchez over 11 years ago
J'ai scanné les 60 pages avec le photocopieur Canon C5051. Il m'a sorti 1 PDF dont j'ai extrait la page d'exemple avec PDF Mod.
Chez moi le résultat de pdfimage est similaire que cela soit sur l'original ou la page d'exemple, ce n'est pas ton cas ?
Je peux essayer de trouver un scanner différent si cela vient de là.
Updated by Alexis Bienvenüe over 11 years ago
C'est peut-être à cause d'un traitement effectué par le scanner sur les images scannées (par exemple pour essayer d'en extraire du texte) : avez-vous utilisé par exemple une option du genre OCR (text searchable) lors du scan ? Si c'est le cas, pouvez-vous essayer sans ?
Sinon, pouvez-vous demander un scan dans un format image (TIFF, JPEG, etc.) ? Ça sera mieux que du PDF.
Sinon, il faudrait trouver une commande qui convertit votre PDF en fichiers image (un par page).
Updated by Adèle Sanchez over 11 years ago
J'ai laissé les options par défaut lors du scan, je regarderai quels sont les paramètres.
Pour obtenir une image, j'ai essayé de sortir le PDF via PDFCreator mais j'ai obtenu le même résultat. Par contre imagemagick a été efficace puisque j'ai obtenu une image de bonne qualité avec la commande suivante
convert -density 300 lot1_page1.pdf /tmp/images/test1.jpg
J'essayerai de voir s'il est possible de sortir 1 image par page ou s'il d'abord découper le fichier et puis surtout je testerai pour voir si ces images peuvent être fournies à AMC.
En tout cas merci pour ton aide, je te tiendrai informé de l'avancement.
Updated by Alexis Bienvenüe over 11 years ago
Si ça marche avec convert
, vous devriez pouvoir forcer AMC à l'utiliser (je ne sais plus à partir de quelle version) en sélectionnant Edition/Préférences/Scan/Forcer la conversion.
Updated by Adèle Sanchez over 11 years ago
Après avoir regardé la documentation et les paramètres du scanner, il s'avère que le service informatique à bien activité la reconnaissance OCR par défaut... et qu'il l'a même verrouillée pour ne pas que ce réglage puisse être désactivé.
Étant donné que convert arrivait bien à produire une image de la page de test, je lui ai donné le PDF complet de 60 pages. Au lieu d'avoir 60 images je n'ai rien eu du tout puisqu'il s'est mis à occuper toute la mémoire vive... ainsi que la mémoire virtuelle puis s'est fait tuer par l'ordonnanceur une dizaine de minutes après son lancement avec un laconique "out of memory".
Pour parvenir à fournir les images à AMC j'ai procédé ainsi :
1) Découper le fichier PDF pour avoir autant de fichiers PDF que de pages : pdfseparate ~Documents/Cours/Scan_copies.pdf /tmp/PDF/sortie-%d.pdf
2) Convertir chaque fichier PDF en une image : for i in /tmp/PDF/*; do convert -density 300 $i /tmp/images/$i-e.pjeg; done
Le découpage s'est réalisé en moins d'une seconde tandis que la conversion a nécessité 2 minutes. C'est donc un moyen très rapide qui pourra peut-être servir à d'autres personnes.
Merci Alexis pour l'aide que tu nous apporte et pour ce merveilleux logiciel !
Updated by Alexis Bienvenüe over 10 years ago
- % Done changed from 0 to 100
- Status changed from New to Closed