From 171a05ed4dcf384ff6440714cca55811761b3ef8 Mon Sep 17 00:00:00 2001 From: Dotty Dotter Date: Tue, 28 Apr 2026 23:14:17 +0200 Subject: [PATCH] docs(#151): BW-Stub um konkrete Recherche-Befunde erweitert MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Heutige Probe von WP17 Sitzung 50 (618 KB PDF) ergab: URL-Pattern bestaetigt: https://www.landtag-bw.de/.../WP{wp}/Plp/{wp}_{n:04}.pdf 4-stellige Sitzungs-Nr mit Padding (anders als NRW unkpaddet) Anchor-Phrasen-Stichprobe: 'einstimmig zugestimmt' x5 — Haupt-Anchor (NRW: 'angenommen') 'Damit ist [...] einstimmig' x2 — NRW-aehnliche Struktur 'angenommen' x1 — nur in einer Rede, KEIN Beschluss-Anchor! 'Drucksache 17/N' x35 — DS-Pattern wie NRW 'zugestimmt' x19 — dominierende Vote-Phrase Fraktions-Auflistung pro Vote in BW deutlich weniger detailliert als NRW — Parser wird oft nur 'einstimmig' / 'mit Mehrheit' extrahieren koennen, kein ja/nein/enthaltung-Breakdown pro Fraktion. Fuer den naechsten Implementer (BW-Session) wertvolle Vorarbeit. --- app/protokoll_parsers/bw.py | 34 +++++++++++++++++++++++++++++++++- 1 file changed, 33 insertions(+), 1 deletion(-) diff --git a/app/protokoll_parsers/bw.py b/app/protokoll_parsers/bw.py index 8a71845..4733646 100644 --- a/app/protokoll_parsers/bw.py +++ b/app/protokoll_parsers/bw.py @@ -17,7 +17,39 @@ Auto-Ingest-Cron ueberspringt BW solange. ## URL-Discovery -https://www.landtag-bw.de/files/live/sites/LTBW/files/dokumente/WP{wp}/Plp/{wp}_{n:04}.pdf (HTTP 200 verifiziert!) +``` +https://www.landtag-bw.de/files/live/sites/LTBW/files/dokumente/WP{wp}/Plp/{wp}_{n:04}.pdf +``` + +Verifiziert HTTP 200 fuer WP17 Sitzungen 0001, 0050, 0100. WP17 endet +ungefaehr Sitzung 130 (404 ab ~150). Pattern: 4-stellige Sitzungs-Nr +mit fuehrenden Nullen (anders als NRW `MMP18-N` ohne Padding). + +## Anchor-Phrasen-Befunde (vom Sample WP17 Sitzung 50) + +Stichprobe-Analyse von `17_0050.pdf` (618 KB, ~617k Zeichen): + +| Pattern | Treffer | Kommentar | +|---|---:|---| +| ``angenommen`` | 1 | nur in einer Rede, **kein** Beschluss-Anchor | +| ``abgelehnt`` | 5 | gemischt Reden/Beschluesse | +| ``einstimmig`` | 7 | als Anchor-Phrase brauchbar | +| ``Drucksache 17/\d+`` | 35 | Drucksachen-Nrn werden referenziert | +| ``namentliche Abstimmung`` | 3 | namentliche Abstimmungen kommen vor | +| ``zugestimmt`` | 19 | **dominierende Vote-Phrase** | +| ``einstimmig zugestimmt`` | 5 | hochsignifikante Anchor-Phrase | +| ``Damit ist [...] einstimmig`` | 2 | NRW-aehnliche Anchor-Form | +| ``Wer dem [...] seine Zustimmung gibt`` | 0 | Bundestag-Pattern, in BW NICHT genutzt | + +**Konsequenz fuer Parser:** BW-Vote-Sprache ist: +- ``Damit ist [Artikel/Antrag X] einstimmig (zu)gestimmt`` als + Haupt-Anchor (statt NRW ``angenommen``) +- ``Drucksache 17/N`` als DS-Pattern (analog NRW) +- Detaillierte Fraktions-Auflistung pro Vote ist **deutlich** weniger + vorhanden als in NRW — der Parser kann oft nur ``einstimmig`` / + ``mit Mehrheit`` extrahieren, kein ja/nein/enthaltung-Breakdown. +- Fuer namentliche Abstimmungen (3/Sitzung) ist eigene Logik noetig + (separate Tabelle im PDF). ## Bezug