Berlin: Wahlprogramme zur LTW 2023 indexieren #10

Closed
opened 2026-04-07 23:35:14 +02:00 by tobias · 1 comment
Owner

Kontext

Berlin wurde in #3 als search-only MVP aktiviert. PortalaAdapter funktioniert, der User kann aktuelle Drucksachen aus dem PARDOK abrufen und analysieren lassen. Die Analyse läuft aber ohne BE-spezifische Wahlprogramm-Zitate — es greifen nur die föderalen Grundsatzprogramme als Fallback.

Ziel

Die 5 Wahlprogramme zur Berliner Wiederholungswahl 12.02.2023 (Wahlperiode 19, läuft seit 27.04.2023) indexieren, sodass die Analyse von BE-Anträgen die gleichen Wahlprogramm-Treue-Bewertungen liefert wie für NRW und LSA.

Benötigte Wahlprogramme

Die 5 Fraktionen im 19. Berliner Abgeordnetenhaus:

  • CDU Berlin — Spitzenkandidat Kai Wegner (heute Regierender Bürgermeister)
  • SPD Berlin — Spitzenkandidatin Franziska Giffey
  • BÜNDNIS 90/DIE GRÜNEN Berlin — Spitzenkandidatin Bettina Jarasch
  • DIE LINKE Berlin — Spitzenkandidat Klaus Lederer
  • AfD Berlin — Spitzenkandidatin Kristin Brinker

Schwierigkeit

Die 2023er PDFs sind aus den lebenden Webseiten der Parteien nicht mehr direkt verlinkt — die Berliner Parteien zeigen Stand April 2026 bereits 2026er Programm-Entwürfe (nächste Wahl 20.09.2026). Wayback Machine hat keine direkten PDF-Snapshots der 2023er Programme.

Vorgehen

Wahrscheinliche Quellen:

  • Konrad-Adenauer-Stiftung Archiv (KAS) — CDU
  • Friedrich-Ebert-Stiftung Bibliothek (library.fes.de) — SPD
  • Heinrich-Böll-Stiftung — Grüne
  • Rosa-Luxemburg-Stiftung — Linke
  • Universitäre Wahlprogrammsammlungen (Uni Hohenheim Wahlprogramm-Check)
  • Notfalls Print-Versionen aus Bibliothekskatalogen

Alternative

Falls 2023er PDFs nicht zu beschaffen sind: stattdessen die 2026er Wahlprogramme indexieren (sobald alle Parteien ihre finalen Versionen veröffentlicht haben). Trade-off: Anträge der laufenden 19. WP wurden noch unter den 2023er Programmen geschrieben, die Wahlprogrammtreue-Bewertung würde anachronistisch werden. Aber besser als gar nichts.

Akzeptanzkriterien

  • Alle 5 PDFs in webapp/app/static/referenzen/ als <partei>-be-2023.pdf
  • paged-Text in webapp/app/kontext/ extrahiert
  • wahlprogramme.py WAHLPROGRAMME["BE"] befüllt
  • embeddings.py PROGRAMME um die 5 BE-Einträge erweitert
  • Indexierung im prod-Container ausgeführt (index_programm × 5)
  • Smoke-Test mit BE-Sample-Antrag: semantische Suche liefert für CDU und SPD (Regierungsfraktionen) jeweils ≥1 wahlprogramm-Chunk mit similarity > 0.5
## Kontext Berlin wurde in #3 als search-only MVP aktiviert. PortalaAdapter funktioniert, der User kann aktuelle Drucksachen aus dem PARDOK abrufen und analysieren lassen. Die Analyse läuft aber **ohne BE-spezifische Wahlprogramm-Zitate** — es greifen nur die föderalen Grundsatzprogramme als Fallback. ## Ziel Die 5 Wahlprogramme zur Berliner Wiederholungswahl 12.02.2023 (Wahlperiode 19, läuft seit 27.04.2023) indexieren, sodass die Analyse von BE-Anträgen die gleichen Wahlprogramm-Treue-Bewertungen liefert wie für NRW und LSA. ## Benötigte Wahlprogramme Die 5 Fraktionen im 19. Berliner Abgeordnetenhaus: - **CDU Berlin** — Spitzenkandidat Kai Wegner (heute Regierender Bürgermeister) - **SPD Berlin** — Spitzenkandidatin Franziska Giffey - **BÜNDNIS 90/DIE GRÜNEN Berlin** — Spitzenkandidatin Bettina Jarasch - **DIE LINKE Berlin** — Spitzenkandidat Klaus Lederer - **AfD Berlin** — Spitzenkandidatin Kristin Brinker ## Schwierigkeit Die 2023er PDFs sind aus den lebenden Webseiten der Parteien nicht mehr direkt verlinkt — die Berliner Parteien zeigen Stand April 2026 bereits 2026er Programm-Entwürfe (nächste Wahl 20.09.2026). Wayback Machine hat keine direkten PDF-Snapshots der 2023er Programme. ## Vorgehen Wahrscheinliche Quellen: - Konrad-Adenauer-Stiftung Archiv (KAS) — CDU - Friedrich-Ebert-Stiftung Bibliothek (library.fes.de) — SPD - Heinrich-Böll-Stiftung — Grüne - Rosa-Luxemburg-Stiftung — Linke - Universitäre Wahlprogrammsammlungen (Uni Hohenheim Wahlprogramm-Check) - Notfalls Print-Versionen aus Bibliothekskatalogen ## Alternative Falls 2023er PDFs nicht zu beschaffen sind: stattdessen die **2026er Wahlprogramme** indexieren (sobald alle Parteien ihre finalen Versionen veröffentlicht haben). Trade-off: Anträge der laufenden 19. WP wurden noch unter den 2023er Programmen geschrieben, die Wahlprogrammtreue-Bewertung würde anachronistisch werden. Aber besser als gar nichts. ## Akzeptanzkriterien - [ ] Alle 5 PDFs in `webapp/app/static/referenzen/` als `<partei>-be-2023.pdf` - [ ] paged-Text in `webapp/app/kontext/` extrahiert - [ ] `wahlprogramme.py` `WAHLPROGRAMME["BE"]` befüllt - [ ] `embeddings.py` `PROGRAMME` um die 5 BE-Einträge erweitert - [ ] Indexierung im prod-Container ausgeführt (`index_programm` × 5) - [ ] Smoke-Test mit BE-Sample-Antrag: semantische Suche liefert für CDU und SPD (Regierungsfraktionen) jeweils ≥1 wahlprogramm-Chunk mit similarity > 0.5
Author
Owner

Erledigt in 8992cff + 1b5fd96 + bc7f4a6.

Ergebnis-Strategie: Die in der Issue-Beschreibung diskutierte Frage 2023er PDFs vs 2026er Entwürfe wurde durch die Erkenntnis aufgelöst, dass die Berliner Wiederholungswahl 12.02.2023 keine neuen Programme gebracht hat — die Parteien sind mit ihren Programmen zur AGH-Originalwahl 26.09.2021 angetreten. Die laufende WP19 ist also mit den 2021er Programmen zu analysieren, nicht mit den 2026er-Entwürfen für die kommende AGH-Wahl 20.09.2026.

Quellen: Alle 5 PDFs über den abgeordnetenwatch.de-Mirror der Wiederholungswahl-2023-Seite. Inhalt jedes PDFs per pdftotext gegen das im Programm genannte Wahldatum verifiziert (Beschlussdatum: 20. März 2021 für GRÜNE, Wahl des Abgeordnetenhauses am 26. September 2021 für AfD etc.) — nötig weil das CDU-PDF unter altem abgeordnetenwatch-Dateinamen mit dem 2026er-Programm verwechselt aussah, sich aber per Volltext als der echte 2021er Berlin-Plan 2021–2026 herausstellte.

Akzeptanzkriterien:

  • Alle 5 PDFs in webapp/app/static/referenzen/ als <partei>-be-2023.pdf
  • paged-Text via embeddings.index_programm extrahiert (kein separater paged-text Schritt nötig — extract_text_with_pages macht das inline)
  • wahlprogramme.WAHLPROGRAMME["BE"] befüllt
  • embeddings.PROGRAMME um die 5 BE-Einträge erweitert
  • Indexierung im prod-Container ausgeführt — 871 BE-chunks
  • Smoke-Test mit BE-Sample-Antrag (19/3107 CDU+SPD Kleingewässerprogramm): semantische Suche liefert Wahlprogramm-Zitate aus CDU Berlin Berlin-Plan 2021, S. 85 und SPD Berlin Wahlprogramm AGH 2021, S. 24 mit similarity > 0.5

Beifang: Während der Smoke-Test-Phase fiel ein bestehender Bug auf — format_quotes_for_prompt lieferte chunks ohne Programm-Identifikation, daraufhin halluzinierte das LLM "FDP NRW 2022"-Quellen für MV/BE-Anträge. Format-Fix (1b5fd96) + strikte ZITATEREGEL (bc7f4a6) lösen das vollständig.

Erledigt in 8992cff + 1b5fd96 + bc7f4a6. **Ergebnis-Strategie:** Die in der Issue-Beschreibung diskutierte Frage `2023er PDFs vs 2026er Entwürfe` wurde durch die Erkenntnis aufgelöst, dass die Berliner Wiederholungswahl 12.02.2023 keine neuen Programme gebracht hat — die Parteien sind mit ihren Programmen zur AGH-Originalwahl 26.09.2021 angetreten. Die laufende WP19 ist also **mit den 2021er Programmen** zu analysieren, nicht mit den 2026er-Entwürfen für die kommende AGH-Wahl 20.09.2026. **Quellen:** Alle 5 PDFs über den `abgeordnetenwatch.de`-Mirror der Wiederholungswahl-2023-Seite. Inhalt jedes PDFs per `pdftotext` gegen das im Programm genannte Wahldatum verifiziert (`Beschlussdatum: 20. März 2021` für GRÜNE, `Wahl des Abgeordnetenhauses am 26. September 2021` für AfD etc.) — nötig weil das CDU-PDF unter altem abgeordnetenwatch-Dateinamen mit dem 2026er-Programm verwechselt aussah, sich aber per Volltext als der echte 2021er `Berlin-Plan 2021–2026` herausstellte. **Akzeptanzkriterien:** - [x] Alle 5 PDFs in `webapp/app/static/referenzen/` als `<partei>-be-2023.pdf` - [x] paged-Text via `embeddings.index_programm` extrahiert (kein separater paged-text Schritt nötig — `extract_text_with_pages` macht das inline) - [x] `wahlprogramme.WAHLPROGRAMME["BE"]` befüllt - [x] `embeddings.PROGRAMME` um die 5 BE-Einträge erweitert - [x] Indexierung im prod-Container ausgeführt — 871 BE-chunks - [x] Smoke-Test mit BE-Sample-Antrag (19/3107 CDU+SPD `Kleingewässerprogramm`): semantische Suche liefert Wahlprogramm-Zitate aus `CDU Berlin Berlin-Plan 2021, S. 85` und `SPD Berlin Wahlprogramm AGH 2021, S. 24` mit similarity > 0.5 **Beifang:** Während der Smoke-Test-Phase fiel ein bestehender Bug auf — `format_quotes_for_prompt` lieferte chunks ohne Programm-Identifikation, daraufhin halluzinierte das LLM "FDP NRW 2022"-Quellen für MV/BE-Anträge. Format-Fix (1b5fd96) + strikte ZITATEREGEL (bc7f4a6) lösen das vollständig.
Sign in to join this conversation.
No description provided.