PyDMS - Dokumentenmanagement mit OCR und PDF-Verarbeitung

Dieses Python-Skript automatisiert die Texterkennung (OCR) und die Umwandlung von PDFs in durchsuchbare PDFs. Es überwacht einen Ordner auf neue PDFs, extrahiert relevante Informationen mithilfe von GPT, und speichert die verarbeiteten PDFs in einem definierten Ordner.

Voraussetzungen

Bevor du das Skript ausführst, stelle sicher, dass folgende Programme und Python-Pakete installiert sind:

1. Ghostscript:

Ghostscript ist notwendig, damit OCRmyPDF korrekt funktioniert. Installiere Ghostscript und füge es zu deinem PATH hinzu.

Download: Ghostscript Download
Installiere Ghostscript und füge den Installationspfad zu deinem System-PATH hinzu (z.B. C:\Program Files\gs\gs9.55.0\bin).

2. Tesseract-OCR:

Tesseract ist die OCR-Engine, die von OCRmyPDF verwendet wird.

Download: Tesseract-OCR Download
Installiere Tesseract und füge den Installationspfad zu deinem System-PATH hinzu (z.B. C:\Program Files\Tesseract-OCR).
Stelle sicher, dass das deutsche Sprachpaket installiert ist:
```
tesseract --list-langs
```
Wenn deu nicht aufgelistet ist, lade es hier herunter und füge es in den tessdata-Ordner von Tesseract hinzu.

3. Python-Pakete

Folgende Python-Pakete müssen installiert werden. Verwende den Befehl pip install, um sie zu installieren:

pip install ocrmypdf pytesseract openai watchdog PyMuPDF

Zusammenfassung der zu installierenden Abhängigkeiten:

Ghostscript
Tesseract-OCR (inkl. deutschem Sprachpaket)
Python-Pakete:
- ocrmypdf
- pytesseract
- openai
- watchdog
- PyMuPDF

Installation

Klone dieses Repository:

git clone https://github.com/dein-benutzername/pyDMS.git

Installiere die oben aufgeführten Abhängigkeiten.
Hinterlege deinen OpenAI API-Schlüssel in der Datei openaikey.py, indem du ihn in folgender Struktur speicherst:
```
# openaikey.py
api_key = "dein-openai-api-schlüssel"
```
Starte das Skript:
```
python main.py
```

Funktionsweise

Das Skript überwacht den Ordner D:\PyDMS\New auf neue PDFs.
Sobald eine PDF erkannt wird, wird eine Texterkennung (OCR) mithilfe von Tesseract und OCRmyPDF durchgeführt.
Die extrahierten Informationen (Datum, Absender, Grund) werden mit GPT analysiert.
Die durchsuchbare PDF wird im Ordner D:\PyDMS\Processed gespeichert.
Die Originaldatei wird in den Ordner D:\PyDMS\Archive verschoben.

Konfiguration

Passe den überwachten Ordner, den Output-Ordner sowie den Archiv-Ordner im Skript an:
- Überwachter Ordner: D:\PyDMS\New
- Verarbeiteter Output: D:\PyDMS\Processed
- Archiv: D:\PyDMS\Archive
Erstelle manuell einen Temp-Ordner im gleichen Verzeichnis, in dem sich auch der Ordner New befindet. Dieser wird benötigt, um temporär Dateien während der Verarbeitung zu speichern.

Unterstützung und Probleme

Falls du auf Probleme stößt, öffne bitte ein Issue in diesem Repository.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
main.py		main.py
openaikey.py		openaikey.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PyDMS - Dokumentenmanagement mit OCR und PDF-Verarbeitung

Voraussetzungen

1. Ghostscript:

2. Tesseract-OCR:

3. Python-Pakete

Zusammenfassung der zu installierenden Abhängigkeiten:

Installation

Funktionsweise

Konfiguration

Unterstützung und Probleme

About

Releases

Packages

jholdorff/PyDMS

Folders and files

Latest commit

History

Repository files navigation

PyDMS - Dokumentenmanagement mit OCR und PDF-Verarbeitung

Voraussetzungen

1. Ghostscript:

2. Tesseract-OCR:

3. Python-Pakete

Zusammenfassung der zu installierenden Abhängigkeiten:

Installation

Funktionsweise

Konfiguration

Unterstützung und Probleme

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages