gwoe-antragspruefer

Author	SHA1	Message	Date
Dotty Dotter	f4b7b000a1	Graceful Shutdown v2: Queue sperren + nur laufende Jobs abwarten - _shutting_down Flag: sperrt enqueue() bei Shutdown → User bekommt "Server wird neu gestartet" statt stilles Einreihen in tote Queue - graceful_shutdown wartet NUR auf processing-Jobs (nicht ganze Queue) - Queued-Jobs bleiben in DB als stale → User kann nach Restart re-triggern - Timeout 15 min (900s) — ein LLM-Call dauert max ~120s - stop_grace_period: 15m in docker-compose - get_queue_status() meldet shutting_down für UI-Feedback	2026-04-10 23:20:23 +02:00
Dotty Dotter	2dc504ffea	Graceful Shutdown: Queue wartet auf laufende Jobs + stop_grace_period 5m	2026-04-10 23:17:46 +02:00
Dotty Dotter	d24949740b	#99 Queue: 3 parallele Worker + Job-Visualisierung + Admin-Schutz Queue (queue.py): - QUEUE_CONCURRENCY ENV (default 3) statt hartcodiert 1 - N Worker-Coroutines via asyncio tasks (nicht Semaphore — jeder Worker pickt eigenständig von der Queue) - Per-Job-Tracking: job_id → {status, drucksache, duration, error} - get_queue_status() liefert jobs-Array für UI-Tabelle Visualisierung (index.html): - Fortschrittsbalken (X/Y fertig, grün) - Job-Tabelle: Drucksache + Status-Icon + Dauer - Fertige Jobs klickbar → Detail-Ansicht - Auto-Refresh alle 3s Admin-Schutz (auth.py + main.py): - Neue require_admin Dependency: prüft Keycloak-Rolle "admin" oder "gwoe-admin". Im Dev-Modus durchlassen. - Batch-Analyse, Programme-Index, Assessment-Delete: require_admin - Einzelanalyse, Bookmarks, Kommentare: bleiben require_auth - Keycloak: Rolle "admin" erstellt + User tobias zugewiesen Tests: 206 passed. Refs: #99	2026-04-10 23:15:42 +02:00
Dotty Dotter	cfe36cbd65	#98 GWÖ-Matrix interaktiv: volle Begriffe + Tooltips + Staatsprinzipien Matrix-Tabelle: - Zeilen-Header: volle Berührungsgruppen-Namen (statt "A: Lieferant:innen" jetzt "A: Ausgelagerte Betriebe, Lieferant:innen") - Spalten-Header: Mouseover zeigt Staatsprinzip + Kernfragen (z.B. "Sozialstaatsprinzip — Gerechte Verteilung? Daseinsvorsorge?") - Bewertete Felder: Tooltip mit Feldcode + voller Name + Aspekt aus der Bewertung + Rating-Erklärung ("++ stark fördernd") - Nicht-bewertete Felder: ○ mit Tooltip "Nicht bewertet (Antrag berührt dieses Feld nicht)" statt leere Zelle Detail-Liste: - Feld-Labels jetzt mit vollem Namen aus MATRIX_LABELS - Aspekt kursiv hinter dem Label - Rating-Zahl neben dem Symbol (z.B. "++ (+5)") Daten aus models.py::MATRIX_LABELS via Template-Variable matrix_labels. Tests: 206 passed. Refs: #98	2026-04-10 23:06:37 +02:00
Dotty Dotter	4b40de4e93	#94 Bookmarks + Kommentare: DB-Schema, API, UI DB (database.py): - bookmarks-Tabelle (user_id + drucksache, toggle) - comments-Tabelle (user_id, user_name, drucksache, text, visibility) - Functions: toggle_bookmark, get_bookmarks, add_comment, get_comments, delete_comment API (main.py): - POST /api/bookmark (toggle, Auth-pflichtig) - GET /api/bookmarks (User-Bookmarks) - POST /api/comment (Auth-pflichtig, max 2000 Zeichen) - GET /api/comments?drucksache= (öffentlich) - DELETE /api/comment/{id} (nur eigene, Auth-pflichtig) UI (index.html): - Bookmark-Button ("🔖 Merken" / "⭐ Gemerkt") im Detail-Footer - Kommentar-Bereich: Liste + Eingabefeld + Senden-Button - Kommentare laden automatisch beim Detail-Öffnen - Eigene Kommentare löschbar (✕ Button) - Ohne Login: "Anmelden um zu kommentieren" Gruppen-Sichtbarkeit (visibility) ist vorbereitet aber noch nicht im UI exponiert — kommt als separater Schritt wenn Keycloak-Gruppen konfiguriert sind. Tests: 206 passed. Refs: #94	2026-04-10 22:19:46 +02:00
Dotty Dotter	f56c2af5cd	Fix: Auth-Callback setzt Cookie via HTML-Response statt RedirectResponse	2026-04-10 21:27:32 +02:00
Dotty Dotter	9195d976bc	Fix: httpx import in auth callback	2026-04-10 21:19:31 +02:00
Dotty Dotter	c3bcf1501d	Auth: OIDC Code→Token Exchange Callback + Cookie-basiertes Login	2026-04-10 21:18:10 +02:00
Dotty Dotter	4c8b180383	Fix: Keycloak redirect_uri http→https (Traefik TLS-Termination)	2026-04-10 21:16:15 +02:00
Dotty Dotter	f728388286	#97 Neu bewerten: manueller Re-Analyse-Button + Bewertungsdatum Fußzeile unter jedem Assessment-Detail jetzt mit: - Bewertungsdatum ("Bewertet am DD.MM.YYYY") aus updated_at - Quelle + Modell (batch-reanalyze / webapp, qwen-plus) - "Neu bewerten"-Button (Auth-pflichtig, ausgegraut ohne Login) Flow: Klick → DELETE /api/assessment/delete → POST /api/analyze-drucksache → Queue → pollAnalysis → Detail neu laden Neuer DELETE-Endpoint /api/assessment/delete mit require_auth. API-Response erweitert um updatedAt, source, model für beide Endpoints (list + single assessment). Tests: 206 passed. Refs: #97	2026-04-10 21:10:33 +02:00
Dotty Dotter	d75e9441a3	Quellen-Seite: Programme nach Bundesland gruppiert statt einer langen Liste	2026-04-10 19:10:18 +02:00
Dotty Dotter	ee08cb0c29	Quellen-Seite: PDF-Thumbnails der ersten Seite + Thumbnail-API-Endpoint	2026-04-10 18:40:13 +02:00
Dotty Dotter	6a433e9217	#44 Batch-Analyse: POST /api/batch-analyze Neuer Endpoint der die neuesten ungeprüften Drucksachen eines BL automatisch sucht, herunterlädt und in die Queue (#95) einreiht: POST /api/batch-analyze bundesland=NRW (Pflicht) limit=10 (1-100, default 10) Flow: 1. adapter.search("", limit=limit*3) holt neueste Drucksachen 2. Pro Drucksache: check ob schon bewertet → skip 3. download_text → enqueue(run_drucksache_analysis) 4. Queue verarbeitet seriell mit 10s Pause (DashScope-freundlich) Response: { "status": "batch_enqueued", "enqueued": 7, "skipped_existing": 3, "jobs": [{"drucksache": "18/...", "title": "...", "queue_position": 1}, ...] } Rate-limited auf 3/min. Erfordert Auth (#43). Bei voller Queue: enqueued nur soweit Platz, kein Error. Tests: 201 passed. Refs: #44, #95 (Queue-Basis)	2026-04-10 17:26:05 +02:00
Dotty Dotter	289d37a84b	#95 Job-Queue: SQLite-backed asyncio Worker mit Backpressure FIFO-Queue für Analyse-Jobs — ersetzt FastAPI BackgroundTasks: app/queue.py: - asyncio.Queue mit MAX_QUEUE_SIZE=50 - Einzelner Worker-Coroutine (Concurrency=1, DashScope-freundlich) - MIN_PAUSE_SECONDS=10 zwischen Jobs - Exponentielles Backoff bei Serien-Fehlern (15s → 5min) - get_queue_status() für den Status-Endpoint - QueueFullError → HTTP 429 + Retry-After Header - start_worker() als FastAPI-Startup-Task - re_enqueue_pending() markiert Crash-Überlebende als 'stale' main.py: - POST /api/analyze-drucksache nutzt queue.enqueue() statt background_tasks.add_task() - Response enthält queue_position - GET /api/queue/status zeigt pending, max_size, processed, estimated_wait_seconds, worker_running - Worker wird bei app.startup() gestartet Tests: 201 passed, 5 skipped. Refs: #95, #44 (Batch baut auf Queue auf)	2026-04-10 17:24:34 +02:00
Dotty Dotter	07507de24a	#96 Methodik-/Transparenz-Seite unter /methodik Neue Seite für Endnutzer-Transparenz über die Bewertungsmethodik: - GWÖ-Matrix 2.0 Erklärung mit interaktivem 5×5-Grid - Analyse-Pipeline als 5-Schritt-Visualisierung (Download → Embedding → LLM → Verifikation → Darstellung) - Wahlprogramm-Vergleich: Erklärung des Retrieval + Top-K + Verifikation - Qualitätssicherung: Sub-D Property-Tests, server-seitige Quellen- Rekonstruktion, automatische Neu-Analyse - Einschränkungen: KI-Bias, keine juristische Bewertung, nur indexierte Programme, kein Abstimmungsverhalten - Datenquellen: dynamische Tabelle aller angebundenen Parlamente aus ADAPTERS + bundeslaender.py - Technische Details aufklappbar (details/summary) für Interessierte, Haupttext verständlich für Nicht-Techniker - Links zu Quellen-Seite, Adapter-Matrix, ADRs In Hauptnavigation verlinkt (neben Quellen + Auswertungen). Template-Variablen: adapter_count, model_name, programme_count, chunk_count, bundeslaender — alles dynamisch aus dem Backend. Tests: 194/194 grün. Refs: #96	2026-04-10 16:14:38 +02:00
Dotty Dotter	038ebd6447	Fix: NRW-Titel + Regierungsfraktionen-Pflicht im LLM-Prompt Bug 1 — NRW-Titel "Drucksache XX/YYYYY": NRW's get_document machte nur HEAD-Request auf die PDF-URL und gab title="Drucksache 18/18085" zurück — keinen echten Titel. Fix: nutzt jetzt search(drucksache) um den echten Eintrag von OPAL zu holen. Fallback: leerer Titel statt generischer, damit der LLM-Titel nicht überschrieben wird. Plus _pick_best_title Helper: doc.title nur übernehmen wenn es ein echter Titel ist (nicht "Drucksache XX"). Bug 2 — Nur Antragsteller im Passungsprofil, keine Regierungsfraktionen: Der LLM ignorierte die "UND Regierungsfraktionen"-Anweisung im Prompt. Fix: explizite PFLICHT-FRAKTIONEN-Zeile im User-Prompt: "Du MUSST folgende Fraktionen in wahlprogrammScores bewerten: SPD, CDU, GRÜNE" (dedupliziert aus fraktionen + regierungsfraktionen). Tests: 194/194 grün. Batch-Re-Analyse muss nochmal laufen mit den Fixes (21 bereits fertig, 15 noch offen — werden alle erneut benötigt weil die Titel/Fraktionen in den neuen Assessments falsch sind).	2026-04-10 16:05:57 +02:00
Dotty Dotter	303b30f6dd	Fix SyntaxError: user=Depends nach Form-Params (Python positional-after-default)	2026-04-10 14:30:54 +02:00
Dotty Dotter	7159240f49	#43 Keycloak SSO: JWT-Middleware + UI-Guiding Auth-Schicht vorbereitet — Dev-Modus (KEYCLOAK_URL leer) lässt alles durch, Prod-Modus (ENV gesetzt) validiert JWT gegen Keycloak-JWKS. Backend (app/auth.py): - JWKS-Cache mit 1h TTL (async httpx fetch) - get_current_user: Optional, gibt User-Dict oder None - require_auth: Pflicht, gibt User-Dict oder HTTP 401 - keycloak_login_url: Baut die OIDC-Login-URL - _is_auth_enabled: prüft ob alle 3 ENV-Vars gesetzt sind Abgesicherte POST-Endpoints: - POST /analyze → Depends(require_auth) - POST /api/analyze-drucksache → Depends(require_auth) - POST /api/programme/index → Depends(require_auth) Neue Endpoints: - GET /api/auth/me → {authenticated, sub, email, name, roles} oder {authenticated: false} - GET /api/auth/login-url → {enabled, url} für Keycloak-Redirect Frontend (index.html): - initAuth() beim DOMContentLoaded → prüft /api/auth/me - "Anmelden"-Button im Header (neben "Quellen") - "Jetzt prüfen"-Button: disabled + Tooltip "Nur nach Anmeldung verfügbar" wenn nicht eingeloggt; aktiv wenn eingeloggt - currentUser-State steuert Button-Zustände Dev-Modus: Solange KEYCLOAK_URL nicht gesetzt ist (lokale Dev, aktueller Prod-Stand), sind alle Endpoints offen wie bisher. Kein Breaking Change. Dependency: python-jose[cryptography]>=3.3.0 in requirements.txt. Tests: 194/194 grün (auth.py hat keine Seiteneffekte im Import). Refs: #43	2026-04-10 14:28:57 +02:00
Dotty Dotter	a821c19202	#47 : Auto-Re-Analyse bei nicht-verifizierbaren Zitaten Statt eine Nachricht "Textstelle nicht auffindbar" zu zeigen (was User zurecht als Quatsch bezeichnet hat), erkennt der Cite-Endpoint jetzt halluzinierte Zitate und triggert automatisch eine Re-Analyse: Flow: 1. User klickt auf Zitat-Link 2. render_highlighted_page gibt (pdf, page, highlighted=False) zurück 3. Endpoint prüft: ds+bl Parameter vorhanden? Assessment in DB? 4. → Löscht altes Assessment, startet Re-Analyse als Background-Task 5. → Zeigt HTML-Warte-Seite mit Spinner und "Wird neu analysiert..." 6. → Auto-Redirect nach 15s zurück zum Assessment Das neue Assessment hat durch reconstruct_zitate verifizierte Zitate, die dann beim nächsten Klick korrekt gehighlighted werden. Änderungen: - embeddings.render_highlighted_page: Return-Typ (bytes, int, bool) — drittes Element ist True wenn Highlight gesetzt wurde - database.delete_assessment: neue Funktion für die Re-Analyse - main.py cite-Endpoint: akzeptiert ds= und bl= als optionale Params, triggert Re-Analyse bei highlighted=False + ds vorhanden - Frontend: makeCiteUrl reicht ds+bl aus dem Assessment-Kontext mit durch in die Cite-URL - Cache-Control auf 1h reduziert (war 24h, zu aggressiv für Assessments die sich durch Re-Analyse ändern) Tests: 194/194 grün. Refs: #47, #60	2026-04-10 10:35:01 +02:00
Dotty Dotter	6f35efe4d7	#47 : Volles PDF mit Highlight statt 1-Seiten-Extract User-Feedback: "Kontext geht verloren wenn nur 1 Seite kommt". Änderung: render_highlighted_page liefert jetzt das GESAMTE Wahlprogramm- PDF mit gelber Highlight-Annotation auf der Fundstelle, statt eines 1-Seiten-Auszugs. Der Browser öffnet das vollständige Programm. Frontend hängt #page=N an die URL → Browser scrollt direkt zur Fundstelle. found_page wird als X-Found-Page Header mitgeliefert, falls der Text auf einer anderen Seite als angefordert gefunden wurde (Pre-#60 halluzinierte Seitennummern). Return-Typ geändert: (bytes, int) statt bytes — zweiter Wert ist die 1-indexed Seitennummer wo der Treffer tatsächlich liegt. Tests angepasst: Tuple-Unpacking, Size-Check entfernt (volles PDF ist größer als 1-Seiten-Extract, der alte Vergleich war obsolet). Refs: #47	2026-04-10 10:16:00 +02:00
Dotty Dotter	5a035be20b	#47 Fix: Highlighting für falsche Seitenzahlen + Year-Suffix-Matching Zwei Bugs aus User-Test: 1. "Unbekanntes Wahlprogramm" bei Klick auf Grünes Grundsatzprogramm: Pre-#60 Assessments haben halluzinierte Dateinamen wie "gruene-grundsatzprogramm-2020.pdf" statt "gruene-grundsatzprogramm.pdf". Fix: Year-Suffix-Stripping im Reverse-Lookup (X-YYYY.pdf → X.pdf). 2. "Eine Seite, aber kein Highlighting": Pre-#60 Assessments haben oft falsche Seitennummern. search_for findet nichts auf der falschen Seite. Fix: wenn die angegebene Seite leer ist, ALLE Seiten durchsuchen und die erste mit einem Treffer nehmen. So funktioniert Highlighting auch bei halluzinierten Seitenzahlen retroaktiv. Performance: ~50ms pro PDF (Grundsatzprogramme haben ~100-160 Seiten), akzeptabel für on-demand. Tests: 194/194 grün. Refs: #47	2026-04-10 10:08:02 +02:00
Dotty Dotter	47897e13cd	#47 Fix: Highlighting retroaktiv für alle bestehenden Assessments Problem: Alle Assessments in der Prod-DB haben Pre-#47-URLs (/static/referenzen/X.pdf#page=N). Die _chunk_pdf_url-Änderung wirkt nur auf NEUE Analysen, die noch nicht stattgefunden haben. Fix (zwei Seiten): 1. Endpoint /api/wahlprogramm-cite akzeptiert jetzt auch pdf=<filename> als Alternative zu pid=<programm_id>. Reverse-Lookup über PROGRAMME- Registry: pdf-Filename → programm_id. Damit können die statischen URLs aus Pre-#47-Assessments trotzdem an den Cite-Endpoint geleitet werden. 2. Frontend: neue JS-Funktion makeCiteUrl(z) die JEDE Zitat-URL on-the- fly umschreibt: - /static/referenzen/X.pdf#page=N + z.text → /api/wahlprogramm-cite?pdf=X.pdf&seite=N&q=<urlencoded text> - /api/wahlprogramm-cite?... → durchreichen (schon Cite-URL) - Fallback: URL unverändert Funktioniert retroaktiv für ALLE ~31 Assessments in der DB, ohne Re-Analyse. Sobald ein User auf ein Zitat klickt, wird die Seite des Wahlprogramms mit gelber Markierung gerendert. Tests: 194/194 grün. Refs: #47	2026-04-10 09:57:58 +02:00
Dotty Dotter	4ec6190416	#47 PDF Zitat-Highlighting via PyMuPDF Single-Page-Render Klick auf eine Zitat-Quelle im Report öffnet jetzt eine 1-Seiten-PDF- Variante des Wahlprogramms mit gelb markiertem Snippet, statt nur zum Page-Anchor zu springen und den Leser selbst suchen zu lassen. Implementation: embeddings.render_highlighted_page(programm_id, seite, query) - Validiert programm_id gegen PROGRAMME (Path-Traversal-Schutz) - Lädt das volle Wahlprogramm-PDF, extrahiert via insert_pdf nur die angeforderte Seite in einen neuen Document → kleinere Response - search_for(query[:200]) → Bounding-Boxes aller Treffer - Fallback: 5-Wort-Anker wenn Volltext-Match leer (LLM-Truncation, identisch zu find_chunk_for_text/Sub-D-Logik) - add_highlight_annot mit gelber stroke-Color (1.0, 0.93, 0.0) - Returns serialisierte PDF-Bytes oder None embeddings._chunk_pdf_url - Wenn chunk["text"] vorhanden: emittiert /api/wahlprogramm-cite-URL mit pid=, seite=, q=urlencoded(text[:200]) - Sonst: alter statischer /static/referenzen/X.pdf#page=N (Pre-#47 rückwärts-kompatibel) - text wird auf 200 Zeichen abgeschnitten, sonst blasen 500-Zeichen-Snippets jedes Assessment-JSON auf main.py /api/wahlprogramm-cite Endpoint - Validiert pid gegen PROGRAMME registry - seite: 1 ≤ n ≤ 2000 - Response: application/pdf, Cache-Control max-age=86400 - 404 bei unknown pid oder fehlendem PDF, 400 bei seite out of range Reconstruct-Pipeline (Issue #60 Option B) zieht das automatisch durch: reconstruct_zitate ruft _chunk_pdf_url(matched_chunk) auf, der jetzt bevorzugt die Cite-URL emittiert. Keine Änderung an reconstruct_zitate selbst nötig. Tests: 194/194 grün (185 + 9 neue): - TestChunkPdfUrl: 4 Cases (cite vs static, unknown prog, 200-char-truncate) - TestRenderHighlightedPage: 5 Cases (unknown pid, invalid seite, valid render, empty query, query-not-found-falls-back-zu-leerem-Highlight) - Plus Bridge im Test-Stub: pymupdf-as-fitz Shim falls eine third-party "fitz" das Pkg shadowt (kommt auf älteren Dev-Setups vor) Refs: #47	2026-04-10 01:09:45 +02:00
Dotty Dotter	3631e5418c	Phase C: Auswertungen-Dashboard #58 + CSV-Export #45 (Roadmap #59 ) Drei-dimensionale Aggregations-Sicht über Bundesland × Partei × Wahlperiode mit minimalem Frontend. Backend (`app/auswertungen.py`): - `aggregate_matrix(filter_wp=None)` — 2D-Matrix Bundesland × Partei mit (n, Ø-Score) pro Zelle, optional gefiltert nach Wahlperiode - `aggregate_zeitreihe(bundesland, partei)` — Score-Verlauf einer (BL, Partei)-Kombination über alle bekannten WPs - `export_long_format()` — Long-Format-CSV-Export für externe Tools (deckt #45 vollständig ab) - Partei-Auflösung läuft strikt durch `normalize_partei()` aus #55 — damit wird BB-`FREIE WÄHLER` korrekt als `BVB-FW` aggregiert und NICHT mit dem RP-FW zusammengezählt Wahlperioden-Helper (`app/wahlperioden.py`): - `wahlperiode_for(datum, bundesland)` mappt ein ISO-Datum + BL auf eine Kennung wie `"NRW-WP18"` oder `"MV-WP7"` (Vorgänger-WP). Single Source of Truth ist `BUNDESLAENDER[bl].wahlperiode_start` - `all_wahlperioden()` für UI-Filter-Dropdowns Endpoints in `app/main.py`: - `GET /auswertungen` — HTML-Seite (neues Template) - `GET /api/auswertungen/matrix?wahlperiode=NRW-WP18` — JSON-Matrix - `GET /api/auswertungen/zeitreihe?bundesland=MV&partei=CDU` — JSON-Verlauf - `GET /api/auswertungen/export.csv` — CSV-Download Frontend (`app/templates/auswertungen.html`): - Statisches Template mit Vanilla-JS, kein Build-Step - Wahlperioden-Dropdown + Reload-Button + CSV-Export-Button - Matrix-Tabelle mit Score-Color-Coding (rot ≤ 3, gelb 3-6, grün > 6) - Sticky-Bundesland-Spalte für horizontales Scrolling Tests (`tests/test_auswertungen.py`): - 19 Cases mit in-memory SQLite-Fixture - Verifiziert WP-Mapping, Matrix-Aggregation, Koalitions-Counting, WP-Filter-Korrektheit, BVB-FW-Disambiguierung in der Matrix, CSV-Long-Format - 176 Unit-Tests grün (157 alt + 19 neu) Refs: #58, #45, #59 (Phase C) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 11:25:57 +02:00
Dotty Dotter	9c70b463ac	Phase A: Audit-Restbefunde #57.3/4/7 (Roadmap #59 ) Drei verbleibende Audit-Befunde aus #57 in einem Patch: - #57.3 MEDIUM Drucksache-Regex-Validation: neue app/validators.py mit validate_drucksache() als gemeinsamer Validation-Funnel. Pattern ^\d{1,3}/\d{1,7}([-(].{1,20})?$ deckt alle 10 aktiven Bundesländer (8/6390, 18/12345, 8/6390(neu), 23/3700-A) ab und blockt Path-Traversal (../, /etc/passwd) plus Standard-Injection (;, <, &). Drei Endpoints durchgeschleust: /api/assessment, /api/assessment/pdf, /api/analyze-drucksache. - #57.4 MEDIUM print() → logging.getLogger(__name__): main.py und analyzer.py auf strukturiertes Logging umgestellt. LLM-Inhalte werden NICHT mehr als Volltext geloggt — neue Helper _content_fingerprint() liefert nur "len=N sha1=XXXX", reicht zur Forensik ohne Antrag-Inhalte ins Container-Log zu leaken. basicConfig() mit ISO-Format setzt strukturiertes Logging früh, damit logger.exception() auch beim Boot greift. - #57.7 LOW-MED Search-Query-Limit: validate_search_query() mit MAX_SEARCH_QUERY_LEN=200 schützt /api/search und /api/search-landtag vor 10-MB-Query-DoS. database._parse_search_query() loggt jetzt shlex.ValueError-Fallback statt ihn zu verschlucken (deckt Memory- Regel "stille excepts in Adaptern" ab). Tests: neue tests/test_main_validators.py mit 22 Cases — Drucksache- Whitelist-Roundtrip + Path-Traversal-Reject, Search-Query Längen- Edge-Cases. 107 Unit-Tests grün (85 alt + 22 neu). Validators in eigenem Modul (app/validators.py), damit Tests sie ohne slowapi-Dependency direkt importieren können. Refs: #57, #59 (Phase A) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 11:15:16 +02:00
Dotty Dotter	64cbff5286	Security hotfixes #1 , #2 , #6 from audit (#57 ) Drei akute Befunde aus dem Live-System-Audit (Issue #57): - #1 HIGH — Resource Exhaustion via öffentlichem POST: slowapi Limiter (in-memory, IP-key) auf /analyze (10/min), /api/analyze-drucksache (10/min) und /api/programme/index (3/min). Verhindert, dass ein unauthentifizierter Client mit einer Schleife die DashScope-Quota oder die CPU des Containers leerziehen kann. Default-Storage reicht solange wir auf einem einzigen Worker laufen. - #2 MEDIUM + #6 MEDIUM (selber Root-Cause) — XXE/Local-File-Read via WeasyPrint und Stored XSS via Browser-Rendering: alle LLM-getragenen Felder in app/report.py laufen jetzt durch html.escape() bevor sie in die HTML-Template interpoliert werden. format_redline_html escape-first und ersetzt dann die Markdown-Marker durch von uns kontrollierte <span>-Tags. build_matrix_html escaped das aspect-Attribut, sodass ein nacktes " den title="..."-Wert nicht mehr beenden und einen Event- Handler injizieren kann. Toter jinja2-Import in report.py entfernt (war never used, blockierte nur den lokalen Test). - Tests — neue tests/test_report.py mit 8 Cases, die direkt die Bug-Klasse verifizieren: <script>, file://-img, "-attribut-breakout in Title und ein End-to-End-Render mit XSS-Payloads in jedem LLM-Feld. Die Marker-Funktionalität (** und ~~) wird mit-getestet, damit der Escape-First-Ansatz das nicht versehentlich kaputt macht. 77 alte Unit-Tests + 8 neue → 85 grün. Rate-Limit-Verifikation per TestClient ist Integration-Scope und folgt in tests/integration/test_main_security.py als separates Folge-Item. Refs: #57 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 10:45:43 +02:00
Dotty Dotter	f1867d463c	Bundesland filter & transparency: stringent split + visible source (#8 ) Brings the Bundesland-Dropdown from a cosmetic header widget to a real filter that propagates through every layer (Listing, internal search, statistics, party/tag filters, upload mode), and at the same time makes the source parliament visible in every place where assessments from multiple bundesländer can be mixed. Backend - database.get_all_assessments(bundesland=None) — new optional filter, "ALL" treated as None. - database.search_assessments — bug fix: previous `if bundesland:` branch incorrectly added a `WHERE bundesland='ALL'` clause; now guarded with `bundesland and bundesland != "ALL"`. - main.list_assessments — accepts ?bundesland= query param, includes the bundesland field in the response so the frontend can render badges. - main.get_single_assessment — also includes bundesland in the response so the detail header can show the source parlament. - main.search_landtag — early HTTP 400 when bundesland is missing or "ALL"; the live Landtag adapter cannot serve a synthetic Bundesweit request. - main.index() and main.list_bundeslaender — synthetic "🌍 Bundesweit" entry prepended to the bundesländer list (kept out of bundeslaender.py on purpose — ALL is not a real state). Both endpoints additionally expose a parlament_names map so the frontend can render the source parliament without an extra round-trip. Report (PDF + HTML) - generate_html_report / generate_pdf_report — new optional bundesland parameter. When set, the report header carries the parliament name ("Landtag von Sachsen-Anhalt", "Landtag Nordrhein-Westfalen", …) beside the title. Three call sites updated: run_analysis, run_drucksache_analysis, download_assessment_pdf. Frontend (templates/index.html) - Header dropdown gets the synthetic ALL entry as first option; initial currentBundesland is now 'ALL' (was 'NRW'). - localStorage persistence: changeBundesland writes, DOMContentLoaded reads and validates against the visible options. - changeBundesland resets the score / party / tag filter state, syncs the upload-mode bundesland select, disables the Landtag-Suche button + tooltip when ALL, and toggles a data-mode attribute on .list-content (used by CSS to show/hide the per-item bundesland badge). - loadAssessments now sends ?bundesland=… so the API does the actual filtering. updateStats renders an additional per-bundesland average block (Ø NRW: x · Ø LSA: y) when in ALL mode and the loaded list spans more than one bundesland. - renderList prepends a small "bl-badge" beside the Drucksachen-Nummer. Hidden in single-bundesland mode via CSS selector to avoid clutter. - showDetail header now shows the parliament name as its own line (.detail-parlament). - searchLandtag has an early-out alert if currentBundesland === 'ALL', saving a network round-trip. - Upload-Mode bundesland select now starts with a "— Bundesland wählen —" placeholder (no auto-default), and startAnalysis validates that a concrete bundesland was chosen. CSS - .bl-badge plus the .list-content[data-mode="single"] hide rule. - .detail-parlament for the detail header line. - .header-parlament for the PDF report header line. Resolves #8. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 23:00:39 +02:00
Dotty Dotter	ac18743ff2	Add central bundeslaender.py module with all 16 states (#7 ) Introduces app/bundeslaender.py as the single source of truth for all bundesland-specific data (parliament name, current legislative period, upcoming elections, governing coalition, doku system, base URLs, drucksache format, dokukratie scraper code, active flag, optional remarks). Data reflects April 2026 state. main.py::index() and /api/bundeslaender now derive their lists from this module instead of hardcoding. Frontend dropdown now shows all 16 bundesländer (15 disabled with "(bald)" suffix); previously the landing template showed only 4. NRW remains the only "aktiv" entry. API behaviour change worth noting: the /api/bundeslaender endpoint previously emitted code "ST" for Sachsen-Anhalt; it now emits "LSA" to match the politically dominant abbreviation. No functional impact because non-NRW bundesländer were inactive in both versions. Foundation for #5 and #2; deliberately a no-op for NRW so it can ship and rollback independently. Resolves issue #7. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 14:17:54 +02:00
Dotty Dotter	63de3ca20d	Initial commit: GWÖ-Antragsprüfer v1.0 Features: - GWÖ-Matrix 2.0 Analyse für NRW-Landtagsanträge - Verbesserungsvorschläge im Redline-Format (Original/Vorschlag/Begründung) - Wahlprogramm- und Parteiprogrammtreue-Bewertung - Landtag-Suche via OPAL-API - Tag-Wolke mit Multi-Select Filter - Partei-Filter mit Durchschnittswerten - PDF-Report-Generierung - Security Headers (CSP, X-Frame-Options, etc.) - Persistente SQLite-DB via Docker Volumes Tech Stack: - FastAPI + Jinja2 - Qwen LLM via DashScope API - SQLite + aiosqlite - WeasyPrint für PDF - Docker Compose mit Traefik	2026-03-28 22:30:24 +01:00

29 Commits