Berlin: Wahlprogramme zur LTW 2023 indexieren #10
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#10
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Kontext
Berlin wurde in #3 als search-only MVP aktiviert. PortalaAdapter funktioniert, der User kann aktuelle Drucksachen aus dem PARDOK abrufen und analysieren lassen. Die Analyse läuft aber ohne BE-spezifische Wahlprogramm-Zitate — es greifen nur die föderalen Grundsatzprogramme als Fallback.
Ziel
Die 5 Wahlprogramme zur Berliner Wiederholungswahl 12.02.2023 (Wahlperiode 19, läuft seit 27.04.2023) indexieren, sodass die Analyse von BE-Anträgen die gleichen Wahlprogramm-Treue-Bewertungen liefert wie für NRW und LSA.
Benötigte Wahlprogramme
Die 5 Fraktionen im 19. Berliner Abgeordnetenhaus:
Schwierigkeit
Die 2023er PDFs sind aus den lebenden Webseiten der Parteien nicht mehr direkt verlinkt — die Berliner Parteien zeigen Stand April 2026 bereits 2026er Programm-Entwürfe (nächste Wahl 20.09.2026). Wayback Machine hat keine direkten PDF-Snapshots der 2023er Programme.
Vorgehen
Wahrscheinliche Quellen:
Alternative
Falls 2023er PDFs nicht zu beschaffen sind: stattdessen die 2026er Wahlprogramme indexieren (sobald alle Parteien ihre finalen Versionen veröffentlicht haben). Trade-off: Anträge der laufenden 19. WP wurden noch unter den 2023er Programmen geschrieben, die Wahlprogrammtreue-Bewertung würde anachronistisch werden. Aber besser als gar nichts.
Akzeptanzkriterien
webapp/app/static/referenzen/als<partei>-be-2023.pdfwebapp/app/kontext/extrahiertwahlprogramme.pyWAHLPROGRAMME["BE"]befülltembeddings.pyPROGRAMMEum die 5 BE-Einträge erweitertindex_programm× 5)Erledigt in
8992cff+1b5fd96+bc7f4a6.Ergebnis-Strategie: Die in der Issue-Beschreibung diskutierte Frage
2023er PDFs vs 2026er Entwürfewurde durch die Erkenntnis aufgelöst, dass die Berliner Wiederholungswahl 12.02.2023 keine neuen Programme gebracht hat — die Parteien sind mit ihren Programmen zur AGH-Originalwahl 26.09.2021 angetreten. Die laufende WP19 ist also mit den 2021er Programmen zu analysieren, nicht mit den 2026er-Entwürfen für die kommende AGH-Wahl 20.09.2026.Quellen: Alle 5 PDFs über den
abgeordnetenwatch.de-Mirror der Wiederholungswahl-2023-Seite. Inhalt jedes PDFs perpdftotextgegen das im Programm genannte Wahldatum verifiziert (Beschlussdatum: 20. März 2021für GRÜNE,Wahl des Abgeordnetenhauses am 26. September 2021für AfD etc.) — nötig weil das CDU-PDF unter altem abgeordnetenwatch-Dateinamen mit dem 2026er-Programm verwechselt aussah, sich aber per Volltext als der echte 2021erBerlin-Plan 2021–2026herausstellte.Akzeptanzkriterien:
webapp/app/static/referenzen/als<partei>-be-2023.pdfembeddings.index_programmextrahiert (kein separater paged-text Schritt nötig —extract_text_with_pagesmacht das inline)wahlprogramme.WAHLPROGRAMME["BE"]befülltembeddings.PROGRAMMEum die 5 BE-Einträge erweitertKleingewässerprogramm): semantische Suche liefert Wahlprogramm-Zitate ausCDU Berlin Berlin-Plan 2021, S. 85undSPD Berlin Wahlprogramm AGH 2021, S. 24mit similarity > 0.5Beifang: Während der Smoke-Test-Phase fiel ein bestehender Bug auf —
format_quotes_for_promptlieferte chunks ohne Programm-Identifikation, daraufhin halluzinierte das LLM "FDP NRW 2022"-Quellen für MV/BE-Anträge. Format-Fix (1b5fd96) + strikte ZITATEREGEL (bc7f4a6) lösen das vollständig.