From 7cfbd9f210ec093e81626f79ca68bfd4829cf76e Mon Sep 17 00:00:00 2001 From: Dotty Dotter Date: Tue, 28 Apr 2026 23:15:36 +0200 Subject: [PATCH] docs(#148): BUND-Stub um echte Anchor-Sprache aus WP20-Sitzung 30 MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Erste Probe (Sitzung 184) war Aussprache, daher 0 Beschluss-Anchors. Sitzung 30 (572k chars, 5 angenommen-Anchors) zeigt die echte BT-Vote-Sprache: 'Die Beschlussempfehlung ist mit den Stimmen der Koalitions- fraktionen und der Fraktion Die Linke gegen die Stimmen der CDU/CSU-Fraktion bei Enthaltung der AfD-Fraktion angenommen.' Pattern-Erkennung: - Anchor-Verb 'angenommen' oder 'abgelehnt' am Satzende - Vote-Block: 'mit den Stimmen [...] gegen die Stimmen [...] bei Enthaltung [...]' - Fraktions-Phrasen: 'Fraktion X', 'X-Fraktion', 'Koalitionsfraktionen' - Drucksachen rueckwaerts vom Anchor (oft 100+ Zeichen vorher) Wichtig: BT-Anchor-Sprache ist viel laenger als NRW — Regex-Begrenzung muss 200+ Zeichen tolerieren. Sample-Sitzungen mit Beschluessen: WP20 30, 100, 150. --- app/protokoll_parsers/bund.py | 33 ++++++++++++++++++++++----------- 1 file changed, 22 insertions(+), 11 deletions(-) diff --git a/app/protokoll_parsers/bund.py b/app/protokoll_parsers/bund.py index bf155f2..adbb09c 100644 --- a/app/protokoll_parsers/bund.py +++ b/app/protokoll_parsers/bund.py @@ -39,18 +39,29 @@ mit ANDEREN Anchor-Phrasen. ### Vote-Anchor-Phrasen (vom NRW-Pattern abweichend!) -Bundestag-typisch: -- "Wer dem [Antrag/Gesetzentwurf] seine Zustimmung gibt, den bitte - ich, sich vom Platz zu erheben." -- "Damit ist [...] in zweiter Beratung angenommen." -- "Die Mehrheit hat den Gesetzentwurf [...] abgelehnt." -- "Wir kommen zur Abstimmung in dritter Lesung." -- "[...] wird zur federfuehrenden Beratung an den Ausschuss [...] - ueberwiesen." +**Verifiziert in WP20 Sitzung 30** (572k Zeichen XML, 5 angenommen-Anchors): -**Achtung:** WP20-Sitzung 184 enthielt 0 dieser Anchors weil pure -Aussprache. Echtes Sample mit Beschluessen brauchts (z.B. Sitzungen -mit Gesetzentwurf-Lesungen). +``` +Die Beschlussempfehlung ist mit den Stimmen der Koalitionsfraktionen +und der Fraktion Die Linke gegen die Stimmen der CDU/CSU-Fraktion bei +Enthaltung der AfD-Fraktion angenommen. +``` + +Pattern-Erkennung: +- Anchor-Verb: ``angenommen`` oder ``abgelehnt`` am Satzende +- Vote-Block: ``mit den Stimmen [...] gegen die Stimmen [...] bei + Enthaltung [...]`` +- Fraktions-Phrasen: ``Fraktion X``, ``X-Fraktion``, ``Koalitionsfraktionen`` +- Drucksachen muessen **rueckwaerts** vom Anchor gesucht werden + (oft mehrere 100 Zeichen vorher) + +**Wichtig:** BT-Anchor-Sprache ist viel laenger als NRW +(``Damit ist X angenommen``, 5-30 Zeichen) — bei BT zwischen Stimm- +Block und ``angenommen`` koennen 200+ Zeichen liegen. Regex-Begrenzung +muss entsprechend grosszuegig sein. + +WP20 Sitzung 184 = pure Aussprache, KEINE Beschluss-Anchors. Sample +fuer Tests: WP20-Sitzungen 30, 100, 150 (alle mit Beschluessen). ### Strukturierte Alternative — namentliche Abstimmungen