Beschlussprotokoll-Parser: BL-übergreifende Abstimmungsergebnis-Extraktion #126
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#126
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Kontext
Aus der #106-Research (Abstimmungsverhalten) stellte sich heraus, dass die Beschlussprotokolle der Plenarsitzungen eine wesentlich bessere Datenquelle sind als die ausführlichen Plenarprotokolle (PDF). Beschlussprotokolle sind kurze, strukturierte Zusammenfassungen mit exaktem Abstimmungsergebnis + Fraktions-Breakdown pro TOP.
NRW-Proof-of-Concept (MMPB18-*.html): 90 LOC Python-Parser, validiert auf 9 Protokollen. Findet pro Sitzung alle Abstimmungen mit Ergebnis + ja/nein/enthaltung pro Fraktion. Kein PDF-Parsing nötig (strukturiertes HTML).
Ziel
Ein eigenständiger, BL-übergreifender Beschlussprotokoll-Parser, der:
{drucksache, ergebnis, ja, nein, enthaltung, sitzung, datum, bundesland}BL-Recherche-Ergebnis (Stand 2026-04-12)
Trivial parsbar (strukturiertes HTML mit Fraktions-Votes)
landtag.nrw.de/.../MMPB18-{nr}.htmllandtag-saar.de/aktuelles/mitteilungen/abstimmungsergebnisse-der-{xx}-landtagssitzung-vom-{datum}/[SPD: dafür; CDU: dagegen; AfD: Enthaltung]Mittel (PDF mit Textebene, Fraktions-Votes wahrscheinlich enthalten)
dokumentation.landtag-mv.de/parldok/dokument/{id}/...beschlussprotokoll...landtag.ltsh.de/.../beschlusspro/{jahr}/bp_20-{nr}_{mm}-{yy}.pdfparlamentsdokumentation.brandenburg.de/.../beschlpr/protokolle/{nr}.pdfdokumente.landtag.rlp.de/landtag/plenarprotokolle/b-{nr}-P-18.pdfhamburgische-buergerschaft.de/.../vorlaeufiges-beschlussprotokoll-data.pdfstarweb.hessen.de/cache/.../Beschlussprotokoll_PL_{nr}_{datum}.pdfbremische-buergerschaft.de/dokumente/wp21/land/protokoll/b21l{nr}.pdfbundestag.de/dokumente/protokolle/amtlicheprotokolle/...Hoch / nicht verfügbar (kein Beschlussprotokoll mit Fraktions-Votes)
Zusammenfassung
Implementierungs-Reihenfolge
Phase 1 — Trivial (sofort umsetzbar)
/tmp/beschluss_parser_v2.py)Phase 2 — PDF-Beschlussprotokolle
Phase 3 — Fallback auf Plenarprotokoll-PDF (nur wenn nötig)
Architektur-Vorschlag
Code-Stand
/tmp/beschluss_parser_v2.py(~90 LOC) — validiert auf 9 Sitzungen, alle 5 Fraktionen korrekt erkannt inkl. ja/nein-Flip bei Ablehnungen/tmp/parser_v5.py(~390 LOC) — als Fallback für BL ohne Beschlussprotokoll/tmp/nrw_fixture.json— 19 Ground-Truth-Einträge für Cross-ValidationAkzeptanzkriterien