Bundesland: Berlin (Wahl 20.09.2026) #3

Closed
opened 2026-03-31 00:49:45 +02:00 by tobias · 1 comment
Owner

Landtagswahl

  • Datum: 20.09.2026 (Abgeordnetenhaus)
  • Wahlprogramm Grüne: Beschlossen am 15.02.2026

Parlamentsdokumentation

Scraping-Optionen

TODO für Integration

  • Grünes Wahlprogramm Berlin 2026 als PDF herunterladen
  • Open Data XML testen — möglicherweise einfacher als Scraping
  • PARDOK Elasticsearch-Query analysieren
  • Adapter schreiben (XML oder Dokukratie)
  • GWÖ-Matrix-Bewertung mit Berlin-Kontext
  • Frontend: Berlin im Bundesland-Wähler aktivieren
## Landtagswahl - **Datum:** 20.09.2026 (Abgeordnetenhaus) - **Wahlprogramm Grüne:** ✅ Beschlossen am 15.02.2026 - Titel: "Politik ändern, Berlin bleiben." - Schwerpunkte: Bezahlbare Mieten, Klimaschutz, Verkehrswende - URL: https://gruene.berlin/wahlprogramm - PDF: Noch herunterladen ## Parlamentsdokumentation - **System:** PARDOK (Portal-basiert, Elasticsearch-Backend) - **URL:** https://pardok.parlament-berlin.de/ - **Aktuelle WP:** 19 - **Open Data:** ✅ Metadaten als XML verfügbar! - https://www.parlament-berlin.de/dokumente/open-data - Volltexte seit 11. WP (1989) ## Scraping-Optionen - **Dokukratie (OKF):** Scraper `be` verfügbar - `memorious run be` - Backend: "portala" (Elasticsearch-ähnlich) - POST an: https://pardok.parlament-berlin.de/portala/browse.tt.html - ⚠️ Große Queries → 502 Error, Zeiträume klein halten - **Open Data XML:** Direkt nutzbar, maschinenlesbar ## TODO für Integration - [ ] Grünes Wahlprogramm Berlin 2026 als PDF herunterladen - [ ] Open Data XML testen — möglicherweise einfacher als Scraping - [ ] PARDOK Elasticsearch-Query analysieren - [ ] Adapter schreiben (XML oder Dokukratie) - [ ] GWÖ-Matrix-Bewertung mit Berlin-Kontext - [ ] Frontend: Berlin im Bundesland-Wähler aktivieren
tobias added a new dependency 2026-04-07 13:56:49 +02:00
Author
Owner

Erledigt — search-only MVP

Commit 9e0f11f deployed auf https://gwoe.toppyr.de.

Was funktioniert live:

  • Berlin ist vierte aktive Auswahl im Frontend-Dropdown (neben Bundesweit, NRW, LSA)
  • /api/bundeslaender zeigt BE als active: true
  • PortalaAdapter (parametrisiert in einem Refactor — gleiche Klasse für LSA und BE) findet aktuelle Berliner Drucksachen via PARDOK live
  • Beispiel-Treffer (März 2026, WP 19): 19/3104 Krankenhausgesetz, 19/3105 Schulgesetz, 19/3106 Sozialhilfe, 19/3107 Kleingewässerprogramm (Antrag CDU+SPD)
  • HTML-Hit-List wird im Berlin-spezifischen Card-Format geparst (LSA nutzt Perl-Data::Dumper-Dumps — beide Formate werden vom Adapter autodetectet)
  • Originator-Fraktionen werden aus Berlin's h6-Zeile extrahiert („Antrag CDU, SPD" → ["CDU","SPD"], typ Antrag)
  • PDF-URLs sind absolut, Download geht direkt
  • Detail-Header und PDF-Report zeigen den Parlamentsnamen „Abgeordnetenhaus von Berlin" (via #8)
  • Original-Antrags-PDF wird beim Report-Export angehängt (via #9)

Refactor-Highlights:

  • PortalaAdapter ist jetzt mit Konstruktor-Parametern (base_url, db_id, wahlperiode, portala_path, document_type, pdf_url_prefix, date_window_days)
  • Document-Type-Subtree im JSON-Tree wird optional weggelassen (Berlin's ETYPF-Index nutzt andere Werte als LSA)
  • _normalize_fraktion mit Wortgrenzen-Regex (Bug-Fix: vorher matched es CDU nicht in „CDU, SPD")

Bekannte Einschränkung:
Die Wahlprogramme zur LTW Berlin 2023 sind noch nicht in der Embeddings-DB. Die Parteien zeigen aktuell 2026er Entwürfe, die 2023er PDFs sind aus den lebenden Webseiten verschwunden, Wayback hat keine PDF-Snapshots. Die Analyse von BE-Anträgen läuft daher vorerst nur mit den föderalen Grundsatzprogrammen als Fallback. Tracking dafür: neues Folge-Issue #10.

## Erledigt — search-only MVP Commit `9e0f11f` deployed auf https://gwoe.toppyr.de. **Was funktioniert live:** - Berlin ist vierte aktive Auswahl im Frontend-Dropdown (neben Bundesweit, NRW, LSA) - `/api/bundeslaender` zeigt BE als `active: true` - `PortalaAdapter` (parametrisiert in einem Refactor — gleiche Klasse für LSA und BE) findet aktuelle Berliner Drucksachen via PARDOK live - Beispiel-Treffer (März 2026, WP 19): 19/3104 Krankenhausgesetz, 19/3105 Schulgesetz, 19/3106 Sozialhilfe, 19/3107 Kleingewässerprogramm (Antrag CDU+SPD) - HTML-Hit-List wird im Berlin-spezifischen Card-Format geparst (LSA nutzt Perl-Data::Dumper-Dumps — beide Formate werden vom Adapter autodetectet) - Originator-Fraktionen werden aus Berlin's h6-Zeile extrahiert („Antrag CDU, SPD" → `["CDU","SPD"]`, typ `Antrag`) - PDF-URLs sind absolut, Download geht direkt - Detail-Header und PDF-Report zeigen den Parlamentsnamen „Abgeordnetenhaus von Berlin" (via #8) - Original-Antrags-PDF wird beim Report-Export angehängt (via #9) **Refactor-Highlights:** - `PortalaAdapter` ist jetzt mit Konstruktor-Parametern (`base_url`, `db_id`, `wahlperiode`, `portala_path`, `document_type`, `pdf_url_prefix`, `date_window_days`) - Document-Type-Subtree im JSON-Tree wird optional weggelassen (Berlin's ETYPF-Index nutzt andere Werte als LSA) - `_normalize_fraktion` mit Wortgrenzen-Regex (Bug-Fix: vorher matched es CDU nicht in „CDU, SPD") **Bekannte Einschränkung:** Die Wahlprogramme zur LTW Berlin 2023 sind noch nicht in der Embeddings-DB. Die Parteien zeigen aktuell 2026er Entwürfe, die 2023er PDFs sind aus den lebenden Webseiten verschwunden, Wayback hat keine PDF-Snapshots. Die Analyse von BE-Anträgen läuft daher vorerst nur mit den föderalen Grundsatzprogrammen als Fallback. Tracking dafür: neues Folge-Issue #10.
Sign in to join this conversation.
No description provided.