Hallo,
ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.
Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat
* umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und
* in den Ordner Kontoauszüge/4711 verschoben werden.
Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis
auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur Sortierung und Umbenennung einstellen kann.
Bisher habe ich unter Linux hierfür nichts gefunden.
Habt Ihr hier einen Tipp für mich?
ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.
Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat
On 2/24/23 15:09, Tony Blue wrote:
Moin,
ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.
Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat
Ich hätte erwartet, daß bei Kontoauszügen die Zeichen als Fonts
enthalten sind, also Verarbeitung mittels OCR gar nicht nötig ist. Stattdessen sollte es möglich sein, den Text mittels pdftotext(1) zu extrahieren.
Sysop: | Keyop |
---|---|
Location: | Huddersfield, West Yorkshire, UK |
Users: | 299 |
Nodes: | 16 (2 / 14) |
Uptime: | 72:49:21 |
Calls: | 6,694 |
Calls today: | 4 |
Files: | 12,228 |
Messages: | 5,346,772 |
Posted today: | 1 |