Einer der wenigen Bereiche in denen ich bisher noch einen Windowsrechner mit einer Paperport-Installation verwendet habe. Für die Dokumentenverwaltung gibt es Alternativen zu Paperport. Aber die Erstellung von indexierbaren PDF-Dokumenten ist kompliziert und hängt den kommerziellen Windowsprodukten hinterher.
Aber heute habe ich zum erstenmal akzeptable Ergebnisse erhalten. Hier eine kleine Anleitung wie man Cuneiform installiert um eine sogenannte hocr-Datei zu erhalten und mit hocr2pdf daraus die fertige pdf-Datei zu erstellen. Das ganze unter Ubuntu 10.10
Installation von Cuneiform aus den Quellen
Das Ubuntupaket hätte Version 0.7, ich habe damit zu schlechte Ergebnise erhalten. Da hilft nur selber bauen. Dazu braucht man erstmal 3 Pakete:
aptitude install cmake libmagick++-dev build-essential
Dann die aktuelle Version 1.0 herunterladen:
https://launchpad.net/cuneiform-linux
Entpackt, ins Verzeichnis gewechselt und dort nochmal ein Verzeichnis erstellt und reingewechselt:
root@laptop:~/cuneiform# wget http://launchpad.net/cuneiform-linux/1.0/1.0/+download/cuneiform-linux-1.0.0.tar.bz2
root@laptop:~/cuneiform# tar xjvf cuneiform-linux-1.0.0.tar.bz2
root@laptop:~/cuneiform/cuneiform-linux-1.0.0# cd cuneiform-linux-1.0.0/
root@laptop:~/cuneiform/cuneiform-linux-1.0.0# mkdir builddir
root@laptop:~/cuneiform/cuneiform-linux-1.0.0# cd builddir
root@laptop:~/cuneiform/cuneiform-linux-1.0.0# cmake -DCMAKE_BUILD_TYPE=debug ..
root@laptop:~/cuneiform/cuneiform-linux-1.0.0# make
root@laptop:~/cuneiform/cuneiform-linux-1.0.0# make install
Abschliessend vermutlich noch notwendig:
ldconfig
Bei meiner 64-Bit installation musste man vor dem ldconfig noch eine .conf-Date im Ordner /etc/ld.so.conf.d anlegen und dort den Pfad “/usr/local/lib64″ eintragen. (Notwendig weil Fehlermeldung:cuneiform: error while loading shared libraries: libcuneiform.so.1.0.0: cannot open shared object file: No such file or directory
)
Und weil wir schon am installieren sind:
aptitude install exactimage
Das Paket exactimage enthält nämlich hocr2pdf
Jetzt braucht man die Befehle nur noch anwenden. Angenommen wir haben unseren Scan im tif-Format (Mit s/w-Scan und hoher Auflösung habe ich die beste Erfahrung gemacht):
1. Die hocr-Datei erstellen (eine html-Datei mit zusätzlichen Positionsinformationen)
alex@notebook:~/scannertests$ cuneiform -l ger -f hocr -o Testdatei.html Testdatei.tif
Das “-l ger” steht für deutsch als Dokumentsprache und -f hocr fürs Ausgabeformat.
hocr2pdf -i Testdatei.tif -o Testdatei.pdf -s < Testdatei.html
Fertig ist das Sandwich-PDF. Texterkennung ist ganz ordentlich, reicht zumindest um Volltextsuchen zu ermöglichen. Die Positionen der Texte sind teilweise leider sehr verschoben.