gwoe-antragspruefer

Author	SHA1	Message	Date
Dotty Dotter	4ec6190416	#47 PDF Zitat-Highlighting via PyMuPDF Single-Page-Render Klick auf eine Zitat-Quelle im Report öffnet jetzt eine 1-Seiten-PDF- Variante des Wahlprogramms mit gelb markiertem Snippet, statt nur zum Page-Anchor zu springen und den Leser selbst suchen zu lassen. Implementation: embeddings.render_highlighted_page(programm_id, seite, query) - Validiert programm_id gegen PROGRAMME (Path-Traversal-Schutz) - Lädt das volle Wahlprogramm-PDF, extrahiert via insert_pdf nur die angeforderte Seite in einen neuen Document → kleinere Response - search_for(query[:200]) → Bounding-Boxes aller Treffer - Fallback: 5-Wort-Anker wenn Volltext-Match leer (LLM-Truncation, identisch zu find_chunk_for_text/Sub-D-Logik) - add_highlight_annot mit gelber stroke-Color (1.0, 0.93, 0.0) - Returns serialisierte PDF-Bytes oder None embeddings._chunk_pdf_url - Wenn chunk["text"] vorhanden: emittiert /api/wahlprogramm-cite-URL mit pid=, seite=, q=urlencoded(text[:200]) - Sonst: alter statischer /static/referenzen/X.pdf#page=N (Pre-#47 rückwärts-kompatibel) - text wird auf 200 Zeichen abgeschnitten, sonst blasen 500-Zeichen-Snippets jedes Assessment-JSON auf main.py /api/wahlprogramm-cite Endpoint - Validiert pid gegen PROGRAMME registry - seite: 1 ≤ n ≤ 2000 - Response: application/pdf, Cache-Control max-age=86400 - 404 bei unknown pid oder fehlendem PDF, 400 bei seite out of range Reconstruct-Pipeline (Issue #60 Option B) zieht das automatisch durch: reconstruct_zitate ruft _chunk_pdf_url(matched_chunk) auf, der jetzt bevorzugt die Cite-URL emittiert. Keine Änderung an reconstruct_zitate selbst nötig. Tests: 194/194 grün (185 + 9 neue): - TestChunkPdfUrl: 4 Cases (cite vs static, unknown prog, 200-char-truncate) - TestRenderHighlightedPage: 5 Cases (unknown pid, invalid seite, valid render, empty query, query-not-found-falls-back-zu-leerem-Highlight) - Plus Bridge im Test-Stub: pymupdf-as-fitz Shim falls eine third-party "fitz" das Pkg shadowt (kommt auf älteren Dev-Setups vor) Refs: #47	2026-04-10 01:09:45 +02:00
Dotty Dotter	6ced7ae018	#60 Reopen — Option B: server-side reconstruct of zitat quelle/url Sub-D Live-Run gegen Prod-DB nach dem db3ada9-Deploy hat einen neuen Halluzinations-Case gezeigt, den A+C nicht gefangen hat: BB 8/673 BSW: text aus bsw-bb-2024 S.27 (verifiziert via Volltext-Suche im PDF), aber LLM hat im quelle-Feld "S. 4" angegeben — die Seite des Top-2-Chunks im selben Retrieval-Window. Klassischer Cross-Mix zwischen Q-IDs. Strukturelle Diagnose: Das [Qn]-Tag aus A ist nur ein weicher Anker im Prompt. Das LLM darf Text aus Chunk Qn kopieren und trotzdem die quelle aus Chunk Qm zusammenbauen. Die ZITATEREGEL kann das nicht verhindern, solange wir der LLM-Selbstauskunft vertrauen. Fix (Option B aus dem ursprünglichen Plan): `embeddings.reconstruct_zitate(data, semantic_quotes)` läuft im analyzer nach json.loads aber vor Pydantic-Validation: 1. Flachen die retrievten Chunks aller Parteien zu einer einzigen Liste. 2. Pro Zitat: text via Substring oder 5-Wort-Anker gegen alle Chunks matchen (Helpers `find_chunk_for_text` + `_normalize_for_match`, identische Logik wie Sub-D Test). 3. Match → quelle/url server-seitig durch _chunk_source_label und _chunk_pdf_url des matchenden Chunks ÜBERSCHREIBEN. 4. Kein Match → Zitat verworfen (statt mit erfundener quelle persistiert). Damit kann der LLM nur noch sauber zitieren oder gar nicht — es gibt keinen Pfad mehr zu "echter Text, falsche quelle". Tests: - TestReconstructZitate (5 cases): BB 8/673 Re-Mapping, Drop bei hallucinated, no-op bei leeren chunks, anchor-match-Fallback, short-needle und soft-hyphen Edge-Cases - 185/185 grün (179 + 6 neu) Refs: #60, #54 (Sub-D)	2026-04-09 22:52:17 +02:00
Dotty Dotter	db3ada9328	#60 Fix A+C: ENUM-basiertes Zitieren + top_k 2→5 Strukturelle Lösung für die LLM-Halluzinations-Cases aus #60: A — ENUM-Anker - format_quotes_for_prompt nummeriert jeden retrievten Chunk als [Q1], [Q2], … - Neue ZITATEREGEL im Prompt erzwingt vier Bedingungen: 1. Jedes Zitat MUSS auf genau einen [Qn]-Chunk verweisen 2. Der text-String MUSS eine wörtliche, zusammenhängende Passage von min. 5 Wörtern aus genau diesem Chunk sein 3. Die quelle MUSS exakt das Source-Label des gewählten Chunks sein 4. Wenn kein Chunk passt: leeres zitate-Array — lieber 0 als erfunden - analyzer.py:get_system_prompt: Wichtige-Regeln-Block zieht den selben Mechanismus nach, damit das LLM den [Qn]-Anker auch im System-Prompt sieht und nicht nur im User-Prompt. C — Recall-Boost - analyzer.py:run_analysis: top_k_per_partei 2 → 5. In den drei Cases aus #60 lagen die "richtigen" Seiten (S.36, S.37) bisher außerhalb des Top-3-Windows; mit Top-5 erhöht sich die Wahrscheinlichkeit, dass sie überhaupt im Kontext landen. Hintergrund — die Halluzinationen waren KEIN Embedding-Bug: Die retrievten Chunks für Case 1 enthielten S.58 (richtige Seite, falscher Snippet) — das LLM hat den Snippet aus seinem Trainingswissen über GRÜNE-Wahlprogramme rekonstruiert statt aus dem retrievten Chunk-Text zu zitieren. Cases 2/3 hatten die zitierten Seiten gar nicht im Top-3-Window — das LLM hat sowohl Seite als auch Snippet halluziniert. ENUM-Anker verhindert beides strukturell, weil ein nicht-existenter [Qn] sofort als Cheating sichtbar wäre. Tests: - test_chunks_get_enum_ids - test_zitateregel_mentions_enum_anchor - 179/179 grün Refs: #60, #54 (Sub-D), #50 (Umbrella E2E)	2026-04-09 22:21:39 +02:00
Dotty Dotter	ed64399dbb	Fix #60 : NameError in get_relevant_quotes_for_antrag (Phase B refactor leftover) Root cause: der #55-Refactor (`eb045d0`) hat in get_relevant_quotes_for_antrag ``partei_upper`` zu ``partei_lookup`` umbenannt — aber die Dict-Write-Zeile ``results[partei_upper] = ...`` wurde übersehen. Bei jedem Aufruf knallt seither ein NameError, der in analyzer.py vom breiten ``except Exception`` verschluckt und still auf die Keyword-Fallback-Suche umgeleitet wird. Konsequenz: 100% der Assessments seit `eb045d0` (inkl. autonomer Roadmap-Run #59) liefen ohne Embedding-Retrieval — daher die LLM-Halluzinationen aus #60. Fix: - embeddings.py:528: partei_upper → partei_lookup - analyzer.py:249: NameError/AttributeError/TypeError/KeyError nicht mehr schlucken. Programmierfehler im Embedding-Pfad sollen hart fehlschlagen, damit die nächste Refactor-Regression nicht wieder 24h still degradiert läuft. Echte Network-/API-Exceptions fallen weiterhin auf den Keyword-Pfad zurück. - tests/test_embeddings.py: Regression-Test, der get_relevant_quotes_for_antrag mit gemockten chunks aufruft und sicherstellt, dass die Funktion nicht crasht und ein populiertes Result liefert. Hätte den Bug bei `eb045d0` sofort gefangen. Refs: #60, #55, #59	2026-04-09 21:57:56 +02:00
Dotty Dotter	eb045d0ed3	Phase B: Parteinamen-Mapper #55 (Roadmap #59 ) Zentrale `app/parteien.py` als Single Source of Truth für die Partei- Auflösung: - `PARTEIEN`-Tabelle mit kanonischem Key, langem Display-Namen, allen bekannten Aliasen, optionalem `bundesland_scope` und Government- Marker. 14 Einträge (CDU, CSU, SPD, GRÜNE, FDP, LINKE, AfD, BSW, SSW, BiW + die Freie-Wähler-Familie BVB-FW, FW-BAYERN, FW-SL und der generische FREIE WÄHLER-Eintrag). - `normalize_partei(raw, , bundesland=None)` für Single-String-Lookups mit Government-Vorrang und FW-Familien-Disambiguierung - `extract_fraktionen(text, , bundesland=None)` als Funnel für die vier alten Adapter-Helper. Kommagetrennte Listen, MdL-mit-Klammer- partei, HTML-Reste — alles fließt durch eine Stelle, mit BL-Scope- Filter (SSW nur in SH, BVB-FW nur in BB, etc.). - `display_name(canonical, *, long=False)` für UI/PDF — kurze Form bleibt der kanonische Key, lange Form ist "BÜNDNIS 90/DIE GRÜNEN" statt "GRÜNE" etc. Adapter-Migration in `app/parlamente.py`: - Vier nahezu identische `_normalize_fraktion()`-Methoden in PortalaAdapter, ParLDokAdapter, StarFinderCGIAdapter, PARLISAdapter durch einen einzeiligen Shim ersetzt, der `extract_fraktionen` mit `self.bundesland` aufruft. ~120 Zeilen Duplikation entfernt. - `@staticmethod` aufgehoben, weil wir jetzt `self.bundesland` brauchen für die FW-Disambiguierung — alle Aufrufer waren bereits `self._...`, also keine Call-Site-Änderung nötig. `app/embeddings.py:496` Workaround-Hack entfernt: - `partei.upper() if partei != "GRÜNE" else "GRÜNE"` durch zentralen `normalize_partei()`-Aufruf ersetzt — der Hack war ein Kommentarzeichen dafür, dass die Partei-Schreibweise irgendwo zwischen Adapter und Embedding-Lookup driften konnte. Mit dem Mapper ist die Schreibweise überall garantiert kanonisch. Tests: - Neue `tests/test_parteien.py` mit 52 Cases — Single-Lookup, FW- Disambiguierung (BVB/Bayern/Saarland/RP), Volltext-Extraktion, Government-Marker, Tabellen-Konsistenz - `tests/test_parlamente.py` Test-Klasse umgeschrieben: statt der 6 statischen `PortalaAdapter._normalize_fraktion(...)`-Tests jetzt 4 Roundtrip-Tests über echte Adapter-Instanzen, inkl. expliziter BB→BVB-FW vs. RP→FREIE WÄHLER-Verifikation 157 Unit-Tests grün (105 alt + 52 neu). Backwards-kompatibel — die kanonischen Keys sind exakt die in der DB stehenden Strings, kein Migrations-Schritt nötig. Refs: #55, #59 (Phase B) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 11:22:13 +02:00
Dotty Dotter	a4af79688a	Add 30 Wahlprogramme für TH/BB/HH/SH/BW/RP (#37 , #39 , #40 , #32 , #41 , #42 ) Sechs der zehn aktiven Bundesländer hatten bisher keine Wahlprogramme indexiert (alle sechs heute neu aktiviert: BW/HH/TH in Phase 1, SH/BB/RP in Phase 2). Antrag-Analysen für diese BL fielen damit auf föderale Grundsatzprogramme als Fallback zurück. Beschafft via abgeordnetenwatch.de für die jeweils laufende WP: - TH WP8 (LTW 01.09.2024): CDU, AfD, LINKE, BSW, SPD — 5 PDFs - BB WP8 (LTW 22.09.2024): SPD, AfD, CDU, BSW — 4 PDFs - HH WP23 (Bürgerschaftswahl 02.03.2025): SPD, CDU, GRÜNE, LINKE, AfD — 5 PDFs - SH WP20 (LTW 08.05.2022): CDU, SPD, GRÜNE, FDP, SSW — 5 PDFs - BW WP17 (LTW 14.03.2021): GRÜNE, CDU, AfD, SPD, FDP — 5 PDFs - RP WP18 (LTW 14.03.2021): SPD, CDU, AfD, GRÜNE, FREIE WÄHLER, FDP — 6 PDFs Insgesamt 30 PDFs in app/static/referenzen/, plus 30 Einträge in WAHLPROGRAMME[bl][partei] und embeddings.PROGRAMME. Naming-Schema wie etabliert: <partei>-<bl>-<jahr>.pdf, also spd-th-2024.pdf, fw-rp-2021.pdf etc. Wichtig zu Memory feedback_legislaturprogramme: alle BL nutzen das Programm der LAUFENDEN Wahlperiode, NICHT Programme aus späteren Wahlen. BW und RP wählen am 08.03.2026 / 22.03.2026 neu — der 18./19. Landtag konstituiert sich erst, daher sind die 17./18. WP mit den 2021er Programmen weiterhin laufend bis zur Konstituierung. Indexierung im prod-Container ist NICHT Teil dieses Commits — muss separat ausgeführt werden: ssh vserver 'docker exec gwoe-antragspruefer python -c " from app.embeddings import index_programm from pathlib import Path d = Path(\"/app/app/static/referenzen\") for pid in [ \"cdu-th-2024\",\"afd-th-2024\",\"linke-th-2024\",\"bsw-th-2024\",\"spd-th-2024\", \"spd-bb-2024\",\"afd-bb-2024\",\"cdu-bb-2024\",\"bsw-bb-2024\", \"spd-hh-2025\",\"cdu-hh-2025\",\"gruene-hh-2025\",\"linke-hh-2025\",\"afd-hh-2025\", \"cdu-sh-2022\",\"spd-sh-2022\",\"gruene-sh-2022\",\"fdp-sh-2022\",\"ssw-sh-2022\", \"gruene-bw-2021\",\"cdu-bw-2021\",\"afd-bw-2021\",\"spd-bw-2021\",\"fdp-bw-2021\", \"spd-rp-2021\",\"cdu-rp-2021\",\"afd-rp-2021\",\"gruene-rp-2021\",\"fw-rp-2021\",\"fdp-rp-2021\", ]: index_programm(pid, d) "' 77 pytest tests passing — der File-Existenz-Check in test_wahlprogramme.py hätte einen Tippfehler im PDF-Namen sofort gefangen. Erledigt UI-Aktivierungs-Issues #37 (TH), #39 (BB), #40 (HH), #32 (SH), #41 (BW), #42 (RP). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 08:03:11 +02:00
Dotty Dotter	1b5fd96e16	Embeddings prompt: include programme name in chunk citations format_quotes_for_prompt previously rendered each retrieved chunk as just "S. X: text", giving the LLM no way to know which Bundesland or Wahlprogramm the passage came from. Result: even when the embedding search correctly returned MV-only chunks, the LLM hallucinated familiar source labels from its training set (typically "FDP NRW Wahlprogramm 2022, S. 75") because that was its strongest prior for budget/transparency policy citations. Fix: prepend the fully-qualified PROGRAMME[programm_id]["name"] to each quote and explicitly instruct the model to use these labels verbatim. Discovered while smoke-testing MV after indexing the new MV+BE programmes — embedding retrieval was clean (sim ~0.6 chunks all from fdp-mv-2021), only the prompt serialisation was lossy. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 11:24:31 +02:00
Dotty Dotter	8992cffc64	Add MV+BE Wahlprogramme zur jeweils laufenden Legislatur (#4 , #10 ) 11 PDFs in app/static/referenzen/ + Einträge in WAHLPROGRAMME und embeddings.PROGRAMME für die beiden bisher nur per föderalem Grundsatzprogramm-Fallback abgedeckten Landtage: - MV (WP 8, seit 26.10.2021): CDU, SPD, GRÜNE, FDP, AfD, LINKE Wahlprogramme zur LTW 26.09.2021. Issue #4. - BE (WP 19, konstituiert nach Wiederholungswahl 12.02.2023): CDU, SPD, GRÜNE, LINKE, AfD Programme zur AGH-Wahl 26.09.2021. Die Wiederholungswahl 2023 nutzte dieselben Programme wie die Originalwahl, daher die "be-2023.pdf"-Benennung mit Programm- jahr 2021. Issue #10. Quellen: abgeordnetenwatch.de Mirror für 9 PDFs, library.fes.de für SPD MV, cdu-mv.de direkt für CDU MV, fdp-mv.de direkt für FDP MV. Alle PDFs verifiziert via pdftotext gegen das im Programm genannte Wahldatum, um zu vermeiden, dass aktuellere Wahlkampf-Entwürfe (z.B. das CDU "Berlin-Plan 2026") als Legislatur-Programm fehlinterpretiert werden. Indexierung in die embeddings-DB ist NICHT Teil dieses Commits — sie muss separat im prod-Container ausgeführt werden: docker exec gwoe-antragspruefer python -c " from app.embeddings import index_programm from pathlib import Path d = Path('/app/static/referenzen') for pid in ['cdu-mv-2021','spd-mv-2021','gruene-mv-2021', 'fdp-mv-2021','afd-mv-2021','linke-mv-2021', 'cdu-be-2023','spd-be-2023','gruene-be-2023', 'linke-be-2023','afd-be-2023']: index_programm(pid, d) " Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 08:24:33 +02:00
Dotty Dotter	87874a7a14	Activate LSA: Wahlprogramme + ingest + frontend (#2 ) Brings Sachsen-Anhalt online as the second supported Bundesland after NRW. Closes the gap that issue #2 left open: with the PortalaAdapter already in place from `c7242f8`, this commit adds the reference data and flips the activation switch. Wahlprogramme (LTW Sachsen-Anhalt 06.06.2021) - Six PDFs added under app/static/referenzen/{cdu,spd,gruene,fdp,afd, linke}-lsa-2021.pdf, plus paged plain-text extractions under app/kontext/*.txt for the keyword fallback search. - Sources verified by hand: - CDU "Unsere Heimat. Unsere Verantwortung." (cdulsa.de, 82 pages) - SPD "Zusammenhalt und neue Chancen" (FES library, 77 pages) - GRÜNE "Verlässlich für Sachsen-Anhalt" (gruene-lsa.de, 164 pages) - FDP "Wahlprogramm zur Landtagswahl 2021" (Naumann-Stiftung, 76 pages) - AfD "Alles für unsere Heimat!" (klimawahlen.de mirror, 64 pages) - LINKE "Wahlprogramm zur Landtagswahl 2021" (dielinke-sachsen-anhalt.de, 88 pages) - The CDU PDF was the trickiest: KAS blocks bot downloads via Cloudflare; the cdulsa.de copy was located by an autonomous web search and verified to be byte-identical with the official document. Embeddings indexed (in production container, OpenAI-compatible DashScope embeddings via the existing index_programm pipeline): - CDU 134, SPD 145, GRÜNE 183, FDP 100, AfD 64, LINKE 143 chunks - Total LSA: 769 new chunks alongside the existing 775 NRW chunks and 335 federal Grundsatzprogramm chunks. wahlprogramme.py - WAHLPROGRAMME["LSA"] populated with all six parties (canonical fraction codes, original titles, page counts). embeddings.py - PROGRAMME extended with the six new "<partei>-lsa-2021" entries that the indexer pipeline expects. bundeslaender.py - LSA flipped to aktiv=True. The frontend dropdown will now offer Sachsen-Anhalt as a selectable bundesland and analyzer.get_bundesland_ context() will produce a real LSA prompt block (CDU/SPD/FDP as governing fractions, all six landtagsfraktionen). End-to-end smoke test (live in production container before commit) - Adapter: PortalaAdapter.search() returned current Anträge of März 2026 (LINKE + GRÜNE) with correct titles and PDF URLs. - Semantic search for an LSA "ÖPNV in der Altmark" sample antrag matched LINKE S.53, SPD S.68, FDP S.52 — all three with similarity > 0.6 and topical hits (Regionalisierungsmittel, ÖPNV-Förderprogramm, Wasserstoffnetz). Resolves issue #2. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 22:12:32 +02:00
Dotty Dotter	ee0218b5af	Refactor wahlprogramme/embeddings/analyzer for multi-state (#5 ) Atomic refactor of the three modules that previously hardcoded NRW behaviour. After this commit, every analysis path consults the central BUNDESLAENDER registry for governing fractions, parliament name, and state metadata. wahlprogramme.py - WAHLPROGRAMME is now nested {bundesland: {partei: meta}}; NRW data hoisted unchanged under the "NRW" key. - New WAHLPROGRAMM_KONTEXT_FILES dict maps a state to its overview markdown file (currently only NRW). - find_relevant_quotes(text, fraktionen, bundesland) — bundesland is now a required positional. Governing fractions for the requested state are merged with the submitting fractions before lookup. - Helpers get_wahlprogramm() and parteien_mit_wahlprogramm() expose the new shape to other modules. - ValueError on unknown bundesland (no silent fallback). embeddings.py - Schema migration in init_embeddings_db: adds a `bundesland` column to the chunks table when missing, plus an index, and backfills existing rows from the PROGRAMME registry. Grundsatzprogramme (federal level) keep bundesland NULL by design. - find_relevant_chunks accepts a bundesland filter that matches state rows OR NULL — so federal Grundsatzprogramme remain visible to every analysis. - get_relevant_quotes_for_antrag(text, fraktionen, bundesland, …) — bundesland required, governing fractions read from BUNDESLAENDER instead of hardcoded ["CDU","GRÜNE"]. Order-preserving dedup replaces the previous set-based merge. - index_programm now writes the bundesland column on insert. - Dropped the hardcoded "Wahlprogramm NRW 2022" label in format_quotes_for_prompt — bundesland context is implicit in the surrounding prompt block. analyzer.py - get_bundesland_context reads parlament_name, regierungsfraktionen, landtagsfraktionen and the optional WAHLPROGRAMM_KONTEXT_FILES entry from the central registry. Throws ValueError on unknown OR inactive bundesland — kills the silent NRW fallback that previously masked configuration gaps. - The Antragsteller-detection heuristic now iterates BUNDESLAENDER[bundesland].landtagsfraktionen instead of WAHLPROGRAMME.keys(), so we recognise parties for which we don't yet have a Wahlprogramm PDF. - Both quote lookups (semantic + keyword fallback) now receive the bundesland. Resolves issue #5. Foundation for #2 (LSA), #3 (Berlin), #4 (MV). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 18:48:11 +02:00
Dotty Dotter	63de3ca20d	Initial commit: GWÖ-Antragsprüfer v1.0 Features: - GWÖ-Matrix 2.0 Analyse für NRW-Landtagsanträge - Verbesserungsvorschläge im Redline-Format (Original/Vorschlag/Begründung) - Wahlprogramm- und Parteiprogrammtreue-Bewertung - Landtag-Suche via OPAL-API - Tag-Wolke mit Multi-Select Filter - Partei-Filter mit Durchschnittswerten - PDF-Report-Generierung - Security Headers (CSP, X-Frame-Options, etc.) - Persistente SQLite-DB via Docker Volumes Tech Stack: - FastAPI + Jinja2 - Qwen LLM via DashScope API - SQLite + aiosqlite - WeasyPrint für PDF - Docker Compose mit Traefik	2026-03-28 22:30:24 +01:00

11 Commits