E2E Sub-C: Wahlprogramm Indexing + Content Verification #53
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#53
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Sub-Issue von #50.
Zweck
Sub-Issue C des E2E-Test-Umbrellas. Drei Test-Kategorien rund um die Wahlprogramm-Indexierung — fängt vor allem die Bug-Klasse 8 (anachronistisches PDF) und 11 (fehlende Indexierung).
Datei
webapp/tests/integration/test_wahlprogramme_indexed.pyWas getestet wird
C1: Indexing-Status pro aktivem BL
Liest die
embeddings.dbdirekt (kein Live-API nötig) viaembeddings.get_indexing_status()(existiert bereits). ProWAHLPROGRAMME[bl][partei]-Eintrag wird geprüft, ob derprogramm_id(aus dem Datei-Namen) in der DB ≥ 1 Chunk hat.C2: Inhalts-Plausibilität pro PDF (Bug-Klasse 8: anachronistisches PDF)
Pro registriertem Wahlprogramm-PDF wird die erste Seite per
fitz(PyMuPDF echt, nicht Stub) geladen und nach erwarteten Markern durchsucht:info["jahr"]) muss als Token im Volltext der ersten 3 Seiten vorkommenPlus expliziter Anti-Marker für Bug-Klasse 8 (CDU BE 2023 vs 2026):
C3: Embeddings-Statistik
Pro Programm: chunk-count > 0, plus chunk-count konsistent mit Seitenzahl (grobe Heuristik: chunk-count > seiten/10, sonst Indexing wahrscheinlich abgebrochen).
Bug-Klassen
Deckt 8 (anachronistisches PDF), 11 (fehlende Indexierung), 15 (alte Programm-Slugs in der DB).
Akzeptanzkriterien
pytest -m integration tests/integration/test_wahlprogramme_indexed.py -vgrünWAHLPROGRAMMEentfernt aber die DB-Chunks behält → C1 ist trotzdem grün, C3 zeigt orphan-warning (optional, eigener Test)Sub-C erledigt — tests/integration/test_wahlprogramme_indexed.py mit Indexing-Status-Check + PDF-Plausibilitäts-Tests + expliziter Anti-Marker für CDU-BE-PDF-Tausch (Bug-Klasse 8). Commit
73a7f76.