Forum: >>> Magnum BBS <<<

Re: PDF nach OCR-Inhalt umbenennen und in Ordner verschieben

From Bjoern Meier@21:1/5 to All on Fri Feb 24 15:40:01 2023

Moin,

Am Fr., 24. Feb. 2023 um 15:10 Uhr schrieb Tony Blue < tony.blue.mailinglist@gmx.de>:

Hallo,

ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.

Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

* umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und

* in den Ordner Kontoauszüge/4711 verschoben werden.

Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis
auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur Sortierung und Umbenennung einstellen kann.

Bisher habe ich unter Linux hierfür nichts gefunden.

Habt Ihr hier einen Tipp für mich?

Ich habe sowas schon gemacht. Ed gibt nur keine fertig Lösung aber: mit tesseract sollte ein Skript dies in weniger als 20 Zeilen hinbekommen.
Ich hatte das sogar mit einem virtuellen PDF-Drucker zusammen gebaut. Das Drucken hat einfach das Skript getriggert.
Mit freundlichem Gruss
Bjoern

<div dir="ltr"><div dir="ltr"><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div>Moin, </div><div><br></div></div></div></div></div></div></div><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Am Fr., 24. Feb.
2023 um 15:10 Uhr schrieb Tony Blue <<a href="mailto:tony.blue.mailinglist@gmx.de">tony.blue.mailinglist@gmx.de</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
Hallo,<br>

ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts<br> umbenennt und in Ordner verschiebt.<br>

Also z. B. soll die von der Bank heruntergeladene Datei<br> "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung<br>
"Kontoauszug Konto 4711 Nr. 5) hat<br>

* umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und<br>

* in den Ordner Kontoauszüge/4711 verschoben werden.<br>

Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis<br> auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre<br> zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur<br> Sortierung und Umbenennung einstellen kann.<br>

Bisher habe ich unter Linux hierfür nichts gefunden.<br>

Habt Ihr hier einen Tipp für mich?<br>
<br></blockquote><div><br></div>Ich habe sowas schon gemacht. Ed gibt nur keine fertig Lösung aber: mit tesseract sollte ein Skript dies in weniger als 20 Zeilen hinbekommen.</div><div class="gmail_quote">Ich hatte das sogar mit einem virtuellen PDF-
Drucker zusammen gebaut. Das Drucken hat einfach das Skript getriggert.<br clear="all"><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div dir="ltr"><div>Mit freundlichem Gruss</div></div></div></div></div><div>Bjoern </div></div></div>

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Tony Blue@21:1/5 to All on Fri Feb 24 15:20:01 2023

Hallo,

ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts
umbenennt und in Ordner verschiebt.

Also z. B. soll die von der Bank heruntergeladene Datei
"sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

* umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und

* in den Ordner Kontoauszüge/4711 verschoben werden.

Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis
auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur
Sortierung und Umbenennung einstellen kann.

Bisher habe ich unter Linux hierfür nichts gefunden.

Habt Ihr hier einen Tipp für mich?

Viele Grüße

Tony

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From =?UTF-8?Q?Hilmar_Preu=c3=9fe?=@21:1/5 to Tony Blue on Fri Feb 24 16:10:02 2023

On 2/24/23 15:09, Tony Blue wrote:

Moin,

ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.

Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

Ich hätte erwartet, daß bei Kontoauszügen die Zeichen als Fonts
enthalten sind, also Verarbeitung mittels OCR gar nicht nötig ist.
Stattdessen sollte es möglich sein, den Text mittels pdftotext(1) zu extrahieren.

H.
--
Testmail

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From =?ISO-8859-1?Q?MichaelH=F6hne?=@21:1/5 to All on Fri Feb 24 18:00:01 2023

Am Freitag, dem 24.02.2023 um 16:03 +0100 schrieb Hilmar Preuße:

On 2/24/23 15:09, Tony Blue wrote:

Moin,

ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.

Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

Ich hätte erwartet, daß bei Kontoauszügen die Zeichen als Fonts
enthalten sind, also Verarbeitung mittels OCR gar nicht nötig ist. Stattdessen sollte es möglich sein, den Text mittels pdftotext(1) zu extrahieren.

Oder im Inhalt suchen mit "pdfgrep".

Gruß,
Michael

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

Who's Online
Recent Visitors
- Daniel Garrod
  Fri May 3 14:16:49 2024
  from Cambridge, Uk via Telnet
- Bob Worm
  Fri May 3 13:57:57 2024
  from Wales, Uk via Telnet
- Bob Worm
  Fri May 3 13:48:19 2024
  from Wales, Uk via Telnet
- Bob Worm
  Fri May 3 11:07:53 2024
  from Wales, Uk via Telnet

System Info

Sysop:	Keyop
Location:	Huddersfield, West Yorkshire, UK
Users:	299
Nodes:	16 (2 / 14)
Uptime:	72:49:21
Calls:	6,694
Calls today:	4
Files:	12,228
Messages:	5,346,772
Posted today:	1

Re: PDF nach OCR-Inhalt umbenennen und in Ordner verschieben

Who's Online

Recent Visitors

System Info