feat(analyzer): zeitpunkt-genaue Bewertung — datum-Filter durch Embedding-Suche

Schließt #224. ADR 0013 hat die Datenbasis für historische Bewertung geschaffen (programme.PROGRAMME mit gueltig_ab/gueltig_bis); jetzt nutzt der Analyzer sie auch tatsächlich. Vorher: get_relevant_quotes_for_antrag suchte über ALLE Wahl- und Grundsatzprogramme einer Partei in einem BL — egal aus welcher WP. Folge: ein Antrag aus 2018 in NRW konnte Zitate aus dem cdu-nrw-2022 Wahlprogramm (das er noch nicht kennen konnte) zugeordnet bekommen. Anachronismus-Halluzination. Nachher: Wenn ``datum`` (ISO YYYY-MM-DD) durchgereicht wird, filtert ``find_relevant_chunks`` die Chunks auf Programme mit ``[gueltig_ab, gueltig_bis)`` ⊇ datum. Programme, die zum Antragszeitpunkt nicht galten, werden komplett ausgelassen. Signaturen erweitert (alle additiv, datum=None ⇒ altes Verhalten): - embeddings.find_relevant_chunks(..., datum=None) - embeddings.get_relevant_quotes_for_antrag(..., datum=None) - analyzer.analyze_antrag(..., datum=None) main.run_drucksache_analysis: reicht doc.datum durch (DIP/OPAL liefern das Antragsdatum vor dem LLM-Call, kein Zwei-Pass-Workaround nötig). Tests: - test_embeddings.test_datum_param_is_passed_through_to_find_relevant_chunks - test_bug_regressions.test_analyzer_propagates_datum_to_embeddings 1244/1244 Unit-Tests grün.
2026-05-08 22:07:32 +02:00 · 2026-05-08 22:07:32 +02:00 · 7d507f81f4
commit 7d507f81f4
parent 9169e7699d
5 changed files with 158 additions and 7 deletions
--- a/app/analyzer.py
+++ b/app/analyzer.py
@ -302,6 +302,7 @@ async def analyze_antrag(
    bundesland: str = "NRW",
    model: str = "qwen-plus",
    bewerter: Optional[LlmBewerter] = None,
    datum: Optional[str] = None,
 ) -> Assessment:
    """Analyze a parliamentary motion using the LLM.
@ -312,6 +313,11 @@ async def analyze_antrag(
            akzeptiert; andere Adapter können eigene Modell-Namen nutzen).
        bewerter: ``LlmBewerter``-Implementierung. Default: ``QwenBewerter``
            (DashScope/Qwen). Tests reichen hier ``FakeLlmBewerter``.
        datum: ISO-Datum (YYYY-MM-DD) des Antrags. Wenn gesetzt, wird die
            semantische Suche zeitpunkt-gefiltert: nur Wahl- und
            Grundsatzprogramme, die zum Antragszeitpunkt galten, werden
            durchsucht (ADR 0013). Wenn None: alle Programme — wichtig
            für Tests und für Anträge ohne extrahierbares Datum.
    Nach ADR 0008: der HTTP-Call samt Retry-Loop lebt im Adapter; hier
    bleibt nur noch die Application-Logik (Prompt-Komposition, Semantic-
@ -344,6 +350,7 @@ async def analyze_antrag(
        try:
            semantic_quotes = get_relevant_quotes_for_antrag(
                text, fraktionen, bundesland=bundesland, top_k_per_partei=5,
                datum=datum,
            )
            quotes_context = format_quotes_for_prompt(
                semantic_quotes, searched_parties=fraktionen,
--- a/app/embeddings.py
+++ b/app/embeddings.py
@ -991,6 +991,7 @@ def find_relevant_chunks(
    bundesland: str = None,
    top_k: int = 3,
    min_similarity: float = 0.5,
    datum: Optional[str] = None,
 ) -> list[dict]:
    """Find most relevant chunks for a query.
@ -998,6 +999,13 @@ def find_relevant_chunks(
        bundesland: Wenn gesetzt, werden nur Chunks dieses Bundeslands ODER
            globale Chunks (bundesland IS NULL, z.B. Grundsatzprogramme)
            berücksichtigt. Wenn None, kein Filter.
        datum: ISO-Datum (YYYY-MM-DD). Wenn gesetzt, werden nur Chunks
            zurückgegeben, deren ``programm_id`` in einem Programm liegt,
            dessen Geltungszeitraum [gueltig_ab, gueltig_bis) das Datum
            enthält. Damit erfolgen historische Bewertungen gegen das
            zeitpunkt-richtige Programm (ADR 0013). Wenn None: alle
            Programme (gegenwärtig und vergangen) durchsuchbar — Default
            für Rückwärtskompatibilität.
    """
    # Query-Embedding muss im selben Vektorraum wie die gespeicherten Chunks
@ -1026,6 +1034,28 @@ def find_relevant_chunks(
        sql += " AND (bundesland = ? OR bundesland IS NULL)"
        params.append(bundesland)
    if datum:
        # Welche programm_ids gelten zu diesem Datum? Pre-compute aus PROGRAMME.
        valid_pids = []
        for pid, info in PROGRAMME.items():
            ab = info.get("gueltig_ab")
            if not ab:
                continue
            bis = info.get("gueltig_bis")
            if datum < ab:
                continue
            if bis is not None and datum >= bis:
                continue
            valid_pids.append(pid)
        if valid_pids:
            placeholders = ",".join("?" * len(valid_pids))
            sql += f" AND programm_id IN ({placeholders})"
            params.extend(valid_pids)
        else:
            # Kein Programm gilt zu diesem Datum — leere Resultmenge.
            conn.close()
            return []
    rows = conn.execute(sql, params).fetchall()
    conn.close()
@ -1055,6 +1085,7 @@ def get_relevant_quotes_for_antrag(
    fraktionen: list[str],
    bundesland: str,
    top_k_per_partei: int = 2,
    datum: Optional[str] = None,
 ) -> dict[str, list[dict]]:
    """Get relevant quotes from Wahl- and Parteiprogramme for an Antrag.
@ -1062,6 +1093,11 @@ def get_relevant_quotes_for_antrag(
        bundesland: Pflicht. Bestimmt, welche Wahlprogramme durchsucht werden
            und welche Regierungsfraktionen zusätzlich zu den Antragstellern
            einbezogen werden.
        datum: ISO-Datum des Antrags. Wenn gesetzt, werden nur Programme
            durchsucht, deren Geltungszeitraum [gueltig_ab, gueltig_bis)
            das Datum enthält — historische Anträge werden gegen das
            zeitpunkt-richtige Programm bewertet (ADR 0013). Wenn None:
            alle Programme dieser Partei (Default — Rückwärtskompat).
    """
    # Lokaler Import vermeidet Zirkularität: bundeslaender.py importiert nichts
    # aus diesem Modul, aber der saubere Trennstrich bleibt erhalten.
@ -1087,7 +1123,7 @@ def get_relevant_quotes_for_antrag(
        canonical = normalize_partei(partei, bundesland=bundesland)
        partei_lookup = canonical or partei
-        # Wahlprogramm — bundesland-gefiltert
+        # Wahlprogramm — bundesland-gefiltert + ggf. zeitpunkt-gefiltert
        wahl_chunks = find_relevant_chunks(
            antrag_text,
            parteien=[partei_lookup],
@ -1095,9 +1131,13 @@ def get_relevant_quotes_for_antrag(
            bundesland=bundesland,
            top_k=top_k_per_partei,
            min_similarity=0.35,
            datum=datum,
        )
-        # Parteiprogramm (Grundsatz, federal — bundesland=NULL matched implizit)
+        # Parteiprogramm (Grundsatz, federal — bundesland=NULL matched implizit).
        # Hier wird ``datum`` ebenfalls weitergereicht: zum Antragszeitpunkt
        # noch nicht gültige Grundsatzprogramme (z.B. cdu-grundsatz von 2024
        # bei einem Antrag aus 2010) sollen nicht zitiert werden.
        partei_chunks = find_relevant_chunks(
            antrag_text,
            parteien=[partei_lookup],
@ -1105,6 +1145,7 @@ def get_relevant_quotes_for_antrag(
            bundesland=bundesland,
            top_k=top_k_per_partei,
            min_similarity=0.35,
            datum=datum,
        )
        if wahl_chunks or partei_chunks:
--- a/app/main.py
+++ b/app/main.py
@ -1800,10 +1800,13 @@ async def run_drucksache_analysis(
    """Background task for drucksache analysis."""
    try:
        await update_job(job_id, status="processing")
-        
+
-        # Run LLM analysis
+        # Antrag-Datum (falls bekannt) für zeitpunkt-gefilterte Embedding-Suche
-        assessment = await analyze_antrag(text, bundesland, model)
+        # mitreichen — historische Drucksachen werden gegen ihre damals
-        
+        # gültigen Wahlprogramme bewertet (ADR 0013).
        antrag_datum = doc.datum if doc and doc.datum else None
        assessment = await analyze_antrag(text, bundesland, model, datum=antrag_datum)
        # Prepare data for DB
        assessment_data = {
            "drucksache": drucksache,
--- a/tests/test_bug_regressions.py
+++ b/tests/test_bug_regressions.py
@ -13,6 +13,7 @@ import json
 import sqlite3
 import sys
 import types
 from typing import Optional
 import pytest
@ -359,6 +360,70 @@ class TestPflichtFraktionen:
        for fraktion in BUNDESLAENDER["NRW"].landtagsfraktionen:
            assert fraktion in prompt, f"Fraktion {fraktion!r} fehlt im user_prompt"
    def test_analyzer_propagates_datum_to_embeddings(self, monkeypatch):
        """ADR 0013 / Task #224: analyze_antrag(datum=X) muss das Datum
        an get_relevant_quotes_for_antrag durchreichen. Sonst zieht die
        historische Bewertung Zitate aus später veröffentlichten
        Programmen heran (Anachronismus)."""
        import app.analyzer as analyzer_mod
        import app.embeddings as emb_mod
        captured: list[Optional[str]] = []
        def fake_get_relevant_quotes_for_antrag(
            antrag_text, fraktionen, bundesland,
            top_k_per_partei=2, datum=None,
        ):
            captured.append(datum)
            return {}
        # EMBEDDINGS_DB muss "existieren", damit der semantische Pfad
        # (statt Keyword-Fallback) genommen wird. analyzer.py hat den
        # Namen direkt importiert, also muss dort auch gepatcht werden.
        fake_exists = type("P", (), {"exists": lambda self: True})()
        monkeypatch.setattr(emb_mod, "EMBEDDINGS_DB", fake_exists)
        monkeypatch.setattr(analyzer_mod, "EMBEDDINGS_DB", fake_exists)
        monkeypatch.setattr(
            analyzer_mod, "get_relevant_quotes_for_antrag",
            fake_get_relevant_quotes_for_antrag,
        )
        # format_quotes_for_prompt muss auch monkeypatched werden, weil
        # es mit dem leeren Dict aufgerufen wird.
        monkeypatch.setattr(
            analyzer_mod, "format_quotes_for_prompt",
            lambda quotes, searched_parties=None: "",
        )
        class FakeBewerter:
            async def bewerte(self, request):
                return {
                    "drucksache": "18/1", "title": "Test", "fraktionen": ["SPD"],
                    "datum": "2018-09-01", "link": None,
                    "gwoeScore": 5, "gwoeBegründung": "Test",
                    "gwoeMatrix": [], "gwoeSchwerpunkt": [],
                    "wahlprogrammScores": [], "verbesserungen": [],
                    "stärken": [], "schwächen": [],
                    "empfehlung": "Überarbeiten", "empfehlungSymbol": "[!]",
                    "verbesserungspotenzial": "mittel", "themen": [],
                    "antragZusammenfassung": "Test", "antragKernpunkte": [],
                    "konfidenz": "mittel",
                    "shareThreads": "", "shareTwitter": "", "shareMastodon": "",
                }
        asyncio.get_event_loop().run_until_complete(
            analyzer_mod.analyze_antrag(
                text="Antrag aus 2018 in NRW.",
                bundesland="NRW",
                model="qwen-plus",
                bewerter=FakeBewerter(),
                datum="2018-09-01",
            )
        )
        assert captured == ["2018-09-01"], (
            f"datum nicht durchgereicht; captured={captured}"
        )
 # ===========================================================================
 # Bug 5 — NRW-Titel + Regierungsfraktionen im LLM-Prompt (Commit 038ebd6)
--- a/tests/test_embeddings.py
+++ b/tests/test_embeddings.py
@ -196,7 +196,7 @@ class TestFormatQuotesForPrompt:
        """
        def fake_find_relevant_chunks(query, parteien=None, typ=None,
                                      bundesland=None, top_k=3,
-                                      min_similarity=0.5):
+                                      min_similarity=0.5, datum=None):
            return [{
                "programm_id": "gruene-nrw-2022",
                "partei": parteien[0] if parteien else "GRÜNE",
@ -224,6 +224,41 @@ class TestFormatQuotesForPrompt:
        assert "wahlprogramm" in first
        assert "parteiprogramm" in first
    def test_datum_param_is_passed_through_to_find_relevant_chunks(self, monkeypatch):
        """ADR 0013: zeitpunkt-genaue Bewertung. Wenn ``datum`` an
        ``get_relevant_quotes_for_antrag`` übergeben wird, muss es
        unverändert an ``find_relevant_chunks`` weiterfließen — sonst
        zieht die historische Antrags-Bewertung Zitate aus später
        veröffentlichten Programmen heran (Anachronismus)."""
        captured: list[dict] = []
        def fake_find_relevant_chunks(query, parteien=None, typ=None,
                                      bundesland=None, top_k=3,
                                      min_similarity=0.5, datum=None):
            captured.append({"typ": typ, "datum": datum, "parteien": parteien})
            return []   # leer, wir prüfen nur das Pass-Through
        monkeypatch.setattr(embeddings_mod, "find_relevant_chunks",
                            fake_find_relevant_chunks)
        get_relevant_quotes_for_antrag(
            antrag_text="irgendein Antragstext",
            fraktionen=["CDU"],
            bundesland="NRW",
            top_k_per_partei=2,
            datum="2018-09-01",
        )
        assert captured, "find_relevant_chunks should have been called"
        for call in captured:
            assert call["datum"] == "2018-09-01", \
                f"datum nicht durchgereicht: {call}"
        # Wahlprogramm und Parteiprogramm separat aufgerufen
        typen = {c["typ"] for c in captured}
        assert "wahlprogramm" in typen
        assert "parteiprogramm" in typen
 # ─────────────────────────────────────────────────────────────────────────────
 # reconstruct_zitate — Issue #60 Option B (server-side citation rewrite)
 # ─────────────────────────────────────────────────────────────────────────────