Neubewertung: ALLRIS-Daten vor KI-Evaluation komplett neu scrapen #10

Closed
opened 2026-04-01 10:36:05 +02:00 by tobias · 0 comments
Owner

Kontext

Bei der KI-Neubewertung einer Vorlage oder Kette werden aktuell nur die bereits in der DB vorhandenen Daten verwendet. Dadurch können Übertragungsfehler aus dem initialen Import (fehlende Beschlusstexte, unvollständige Wortprotokolle etc.) die Bewertung verfälschen.

Anforderung

Vor jeder Neubewertung sollen alle relevanten Daten frisch aus dem ALLRIS gezogen werden:

Vorlagen-Neubewertung

  1. OParl-API: Vorlage neu abrufen (/api/vorlagen/{id})
  2. PDF-Volltext: Neu extrahieren falls URL vorhanden
  3. Beratungsfolge: Beschlusstexte + Wortprotokolle frisch von ALLRIS scrapen
  4. Dann erst KI-Zusammenfassung generieren

Ketten-Neubewertung

  1. Alle Kettenglieder: OParl-Daten + PDFs + Beratungen neu scrapen
  2. Referenzen prüfen (neue Suffix-Vorlagen?)
  3. Kette ggf. erweitern wenn neue Glieder gefunden
  4. Dann KI-Umsetzungsbewertung mit frischen Daten

Implementierungsdetails

  • Bestehende Scraper wiederverwenden: scripts/scrape_beratungen.py für Beschlusstexte/Wortprotokolle
  • OParl-Import: scripts/oparl_import.py für Vorlage-Metadaten
  • PDF-Extraktion: scripts/extract_pdfs.py
  • Alle Schritte als Pipeline im /api/bewertung/-Endpoint
  • Status-Polling bleibt wie implementiert (/api/bewertung/status/{job_id})
  • Alte Bewertungen NICHT löschen ohne explizite Nutzeranfrage — stattdessen als prompt_version=v2-reeval markieren

Aktueller Stand

  • Backend: POST-Endpoints für Neubewertung (Vorlagen + Ketten)
  • Frontend: Kommentarfeld + Button auf beiden Detailseiten
  • Job-Status-Polling mit Spinner
  • ALLRIS-Rescrape vor Bewertung ← dieses Issue
  • Alte Bewertungen archivieren statt löschen

Betroffene Dateien

  • backend/src/tracker/api/routes/bewertung.py — Hauptlogik
  • scripts/scrape_beratungen.py — Beratungsfolge-Scraper
  • scripts/oparl_import.py — OParl-Import
  • scripts/extract_pdfs.py — PDF-Extraktion
## Kontext Bei der KI-Neubewertung einer Vorlage oder Kette werden aktuell nur die bereits in der DB vorhandenen Daten verwendet. Dadurch können Übertragungsfehler aus dem initialen Import (fehlende Beschlusstexte, unvollständige Wortprotokolle etc.) die Bewertung verfälschen. ## Anforderung Vor jeder Neubewertung sollen alle relevanten Daten frisch aus dem ALLRIS gezogen werden: ### Vorlagen-Neubewertung 1. OParl-API: Vorlage neu abrufen (`/api/vorlagen/{id}`) 2. PDF-Volltext: Neu extrahieren falls URL vorhanden 3. Beratungsfolge: Beschlusstexte + Wortprotokolle frisch von ALLRIS scrapen 4. Dann erst KI-Zusammenfassung generieren ### Ketten-Neubewertung 1. Alle Kettenglieder: OParl-Daten + PDFs + Beratungen neu scrapen 2. Referenzen prüfen (neue Suffix-Vorlagen?) 3. Kette ggf. erweitern wenn neue Glieder gefunden 4. Dann KI-Umsetzungsbewertung mit frischen Daten ## Implementierungsdetails - Bestehende Scraper wiederverwenden: `scripts/scrape_beratungen.py` für Beschlusstexte/Wortprotokolle - OParl-Import: `scripts/oparl_import.py` für Vorlage-Metadaten - PDF-Extraktion: `scripts/extract_pdfs.py` - Alle Schritte als Pipeline im `/api/bewertung/`-Endpoint - Status-Polling bleibt wie implementiert (`/api/bewertung/status/{job_id}`) - Alte Bewertungen NICHT löschen ohne explizite Nutzeranfrage — stattdessen als `prompt_version=v2-reeval` markieren ## Aktueller Stand - [x] Backend: POST-Endpoints für Neubewertung (Vorlagen + Ketten) - [x] Frontend: Kommentarfeld + Button auf beiden Detailseiten - [x] Job-Status-Polling mit Spinner - [ ] **ALLRIS-Rescrape vor Bewertung** ← dieses Issue - [ ] Alte Bewertungen archivieren statt löschen ## Betroffene Dateien - `backend/src/tracker/api/routes/bewertung.py` — Hauptlogik - `scripts/scrape_beratungen.py` — Beratungsfolge-Scraper - `scripts/oparl_import.py` — OParl-Import - `scripts/extract_pdfs.py` — PDF-Extraktion
Sign in to join this conversation.
No Label
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: tobias/antragstracker#10
No description provided.