• Re: PDF nach OCR-Inhalt umbenennen und in Ordner verschieben

    From Bjoern Meier@21:1/5 to All on Fri Feb 24 15:40:01 2023
    Moin,

    Am Fr., 24. Feb. 2023 um 15:10 Uhr schrieb Tony Blue < tony.blue.mailinglist@gmx.de>:

    Hallo,

    ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.

    Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

    * umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und

    * in den Ordner Kontoauszüge/4711 verschoben werden.

    Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis
    auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur Sortierung und Umbenennung einstellen kann.


    Bisher habe ich unter Linux hierfür nichts gefunden.


    Habt Ihr hier einen Tipp für mich?


    Ich habe sowas schon gemacht. Ed gibt nur keine fertig Lösung aber: mit tesseract sollte ein Skript dies in weniger als 20 Zeilen hinbekommen.
    Ich hatte das sogar mit einem virtuellen PDF-Drucker zusammen gebaut. Das Drucken hat einfach das Skript getriggert.
    Mit freundlichem Gruss
    Bjoern

    <div dir="ltr"><div dir="ltr"><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div>Moin, </div><div><br></div></div></div></div></div></div></div><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Am Fr., 24. Feb.
    2023 um 15:10 Uhr schrieb Tony Blue &lt;<a href="mailto:tony.blue.mailinglist@gmx.de">tony.blue.mailinglist@gmx.de</a>&gt;:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
    Hallo,<br>

    ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts<br> umbenennt und in Ordner verschiebt.<br>

    Also z. B. soll die von der Bank heruntergeladene Datei<br> &quot;sweriifla[technischer Name].pdf&quot; die im OCR-Inhalt die Bezeichnung<br>
    &quot;Kontoauszug Konto 4711 Nr. 5) hat<br>

    * umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und<br>

    * in den Ordner Kontoauszüge/4711 verschoben werden.<br>

    Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis<br> auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre<br> zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur<br> Sortierung und Umbenennung einstellen kann.<br>


    Bisher habe ich unter Linux hierfür nichts gefunden.<br>


    Habt Ihr hier einen Tipp für mich?<br>
    <br></blockquote><div><br></div>Ich habe sowas schon gemacht. Ed gibt nur keine fertig Lösung aber: mit tesseract sollte ein Skript dies in weniger als 20 Zeilen hinbekommen.</div><div class="gmail_quote">Ich hatte das sogar mit einem virtuellen PDF-
    Drucker zusammen gebaut. Das Drucken hat einfach das Skript getriggert.<br clear="all"><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div dir="ltr"><div>Mit freundlichem Gruss</div></div></div></div></div><div>Bjoern  </div></div></div>

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)
  • From Tony Blue@21:1/5 to All on Fri Feb 24 15:20:01 2023
    Hallo,

    ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts
    umbenennt und in Ordner verschiebt.

    Also z. B. soll die von der Bank heruntergeladene Datei
    "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

    * umbenannt werden in Kontoauszug 4711 Nr. 5.pdf und

    * in den Ordner Kontoauszüge/4711 verschoben werden.

    Super wäre wenn dies als Linux-Dienst laufen würde, der ein Verzeichnis
    auf neue Dateien überwacht und dann tätig wird. Absolut traumhaft wäre zusätzlich eine Web-Oberfläche oder GUI auf der man die Regeln zur
    Sortierung und Umbenennung einstellen kann.


    Bisher habe ich unter Linux hierfür nichts gefunden.


    Habt Ihr hier einen Tipp für mich?


    Viele Grüße


    Tony

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)
  • From =?UTF-8?Q?Hilmar_Preu=c3=9fe?=@21:1/5 to Tony Blue on Fri Feb 24 16:10:02 2023
    On 2/24/23 15:09, Tony Blue wrote:

    Moin,

    ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.

    Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

    Ich hätte erwartet, daß bei Kontoauszügen die Zeichen als Fonts
    enthalten sind, also Verarbeitung mittels OCR gar nicht nötig ist.
    Stattdessen sollte es möglich sein, den Text mittels pdftotext(1) zu extrahieren.

    H.
    --
    Testmail

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)
  • From =?ISO-8859-1?Q?MichaelH=F6hne?=@21:1/5 to All on Fri Feb 24 18:00:01 2023
    Am Freitag, dem 24.02.2023 um 16:03 +0100 schrieb Hilmar Preuße:
    On 2/24/23 15:09, Tony Blue wrote:

    Moin,

    ich suche nach einer Lösung, die PDF-Dateien nach deren OCR-Inhalts umbenennt und in Ordner verschiebt.

    Also z. B. soll die von der Bank heruntergeladene Datei "sweriifla[technischer Name].pdf" die im OCR-Inhalt die Bezeichnung "Kontoauszug Konto 4711 Nr. 5) hat

    Ich hätte erwartet, daß bei Kontoauszügen die Zeichen als Fonts
    enthalten sind, also Verarbeitung mittels OCR gar nicht nötig ist. Stattdessen sollte es möglich sein, den Text mittels pdftotext(1) zu extrahieren.

    Oder im Inhalt suchen mit "pdfgrep".

    Gruß,
    Michael

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)