#16/#17 match_answers.py und match_claims.py: Cross-Episode-Matching via Embeddings + Qwen

scripts/match_answers.py (#17): - Laedt offene Fragen (genuine, follow_up; answered='no'). - Embedded jede Frage und sucht den besten Kandidat-Absatz aus einer anderen Episode (optional cross-podcast) per Cosinus-Aehnlichkeit ueber die paragraph- embeddings. - Bei score >= 0.55: Qwen-Verifikation 'Beantwortet B die Frage in A?' (yes/partial/no), bei yes/partial wird answered + answered_by_* in der questions-Tabelle gesetzt. - Hard-Budget 1,50 USD, --rerun setzt bestehende Matches neu. scripts/match_claims.py (#16 Stufe 2): - Analoge Mechanik fuer claims: Embedding, Cosinus-Suche, Qwen-Verifikation in der vier-stufigen Skala 'belegt' / 'widerspricht' / 'erweitert' / 'kein_bezug'. - Schreibt Treffer (ohne 'kein_bezug') in neue Tabelle claim_matches. - Default nur verifizierbare Claims (--include-non-verifiable kippt das), --cross-podcast erlaubt Cross-Podcast-Treffer. Beide Skripte nutzen json_utils.parse_llm_json fuer robustes Parsing und sind gegen NaN-Vektoren in den Embeddings abgesichert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-28 02:21:49 +02:00 · 2026-04-28 02:21:49 +02:00 · c5489eabaa
commit c5489eabaa
parent 6f53f35c09
2 changed files with 541 additions and 0 deletions
--- a/scripts/match_answers.py
+++ b/scripts/match_answers.py
@ -0,0 +1,271 @@
+#!/usr/bin/env python3
+"""#17 Frage-Antwort-Asymmetrie: matche unbeantwortete Fragen gegen Antworten in anderen Episoden.
+
+Vorgehen:
+1. Lade Fragen mit answered='no' und question_type in ('genuine', 'follow_up').
+2. Embedde jede Frage (text-embedding-v3) und suche per Cosinus-Aehnlichkeit den
+   besten Kandidaten in den vorhandenen paragraph-embeddings (cross-episode, optional
+   cross-podcast).
+3. Bei score >= MIN_SCORE: Qwen-Verifikation "Beantwortet Absatz B die Frage in A?"
+4. Wenn yes/partial: questions.answered + answered_by_podcast/episode/idx setzen.
+
+Nutzung:
+    DASHSCOPE_API_KEY=... python3 match_answers.py [db-pfad] [limit]
+
+Optionen:
+    --cross-podcast       erlaubt Antworten in anderen Podcasts
+    --rerun               Fragen erneut bearbeiten, auch wenn schon ein answered_by-Wert steht
+"""
+
+import json
+import os
+import sqlite3
+import sys
+import time
+from pathlib import Path
+
+import numpy as np
+from openai import OpenAI
+
+sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
+from json_utils import parse_llm_json
+
+# Backend-Helfer wiederverwenden (Pfad hinzufuegen)
+ROOT = Path(__file__).resolve().parent.parent
+sys.path.insert(0, str(ROOT / "backend"))
+from database import get_all_embeddings  # noqa: E402
+
+DB_PATH = sys.argv[1] if len(sys.argv) > 1 else "data/db.sqlite"
+LIMIT = int(sys.argv[2]) if len(sys.argv) > 2 and not sys.argv[2].startswith("--") else 500
+CROSS_PODCAST = "--cross-podcast" in sys.argv
+RERUN = "--rerun" in sys.argv
+
+API_KEY = os.environ.get("DASHSCOPE_API_KEY", "")
+BASE_URL = "https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
+EMBED_MODEL = "text-embedding-v3"
+LLM_MODEL = "qwen-plus"
+EMBED_BATCH = 6
+MIN_SCORE = 0.55
+HARD_BUDGET_USD = 1.50
+
+COST_IN = 0.0008 / 1000
+COST_OUT = 0.002 / 1000
+
+SYSTEM_PROMPT = """Du erhaeltst eine Frage aus einem Podcast und einen Kandidat-Absatz aus einer anderen Episode.
+
+Pruefe: Beantwortet der Kandidat-Absatz die Frage konkret?
+
+Antworte NUR mit JSON:
+{"answers": "yes" | "partial" | "no", "reason": "1 Satz Begruendung"}
+
+- "yes": der Absatz beantwortet die Frage direkt und vollstaendig.
+- "partial": der Absatz nennt einen Teilaspekt oder eine verwandte Position, aber nicht die volle Antwort.
+- "no": der Absatz beantwortet die Frage nicht (auch wenn er thematisch verwandt ist)."""
+
+
+def setup_db(db):
+    db.executescript("""
+    CREATE INDEX IF NOT EXISTS idx_questions_answered ON questions(podcast_id, answered);
+    """)
+
+
+def fetch_open_questions(db):
+    where = "WHERE q.answered='no' AND q.question_type IN ('genuine','follow_up')"
+    if not RERUN:
+        where += " AND (q.answered_by_episode IS NULL OR q.answered_by_episode = '')"
+    rows = db.execute(f"""
+        SELECT q.id, q.podcast_id, q.episode_id, q.paragraph_idx, q.question_text, q.question_type,
+               p.text AS para_text, e.title AS ep_title, e.guest AS ep_guest
+        FROM questions q
+        JOIN paragraphs p ON q.podcast_id=p.podcast_id AND q.episode_id=p.episode_id AND q.paragraph_idx=p.idx
+        JOIN episodes e ON q.podcast_id=e.podcast_id AND q.episode_id=e.id
+        {where}
+        ORDER BY q.id
+        LIMIT ?
+    """, (LIMIT,)).fetchall()
+    return rows
+
+
+def embed_batch(client, texts):
+    resp = client.embeddings.create(model=EMBED_MODEL, input=texts, dimensions=1024)
+    return [item.embedding for item in resp.data]
+
+
+def best_candidate(q_vec, vectors, meta, exclude_podcast, exclude_episode, allow_cross_podcast):
+    scores = vectors @ q_vec
+    order = np.argsort(scores)[::-1]
+    for idx in order[:30]:
+        m = meta[idx]
+        if m["podcast_id"] == exclude_podcast and m["episode_id"] == exclude_episode:
+            continue
+        if not allow_cross_podcast and m["podcast_id"] != exclude_podcast:
+            continue
+        return m, float(scores[idx])
+    return None, 0.0
+
+
+class Budget:
+    def __init__(self, hard_limit_usd):
+        self.hard_limit = hard_limit_usd
+        self.tokens_in = 0
+        self.tokens_out = 0
+
+    def add(self, usage):
+        if usage:
+            self.tokens_in += getattr(usage, "prompt_tokens", 0) or 0
+            self.tokens_out += getattr(usage, "completion_tokens", 0) or 0
+
+    def cost(self):
+        return self.tokens_in * COST_IN + self.tokens_out * COST_OUT
+
+    def over(self):
+        return self.cost() > self.hard_limit
+
+
+def verify(client, question_text, candidate_text, budget):
+    user_msg = (
+        f"FRAGE:\n\"{question_text}\"\n\n"
+        f"KANDIDAT-ABSATZ:\n\"{candidate_text[:1000]}\""
+    )
+    last_err = None
+    for attempt in range(2):
+        try:
+            resp = client.chat.completions.create(
+                model=LLM_MODEL,
+                messages=[
+                    {"role": "system", "content": SYSTEM_PROMPT},
+                    {"role": "user", "content": user_msg},
+                ],
+                temperature=0.0,
+                max_tokens=200,
+            )
+            budget.add(getattr(resp, "usage", None))
+            content = resp.choices[0].message.content
+            try:
+                return parse_llm_json(content, expect="object"), None
+            except ValueError as pe:
+                last_err = f"parse: {pe}"
+                break
+        except Exception as e:
+            last_err = str(e)
+            if attempt < 1:
+                time.sleep(2)
+                continue
+    return None, last_err
+
+
+def main():
+    if not API_KEY:
+        print("DASHSCOPE_API_KEY nicht gesetzt.")
+        sys.exit(1)
+    client = OpenAI(api_key=API_KEY, base_url=BASE_URL, timeout=60.0, max_retries=1)
+
+    db = sqlite3.connect(DB_PATH, timeout=30.0)
+    db.execute("PRAGMA busy_timeout=30000")
+    db.row_factory = sqlite3.Row
+    setup_db(db)
+
+    questions = fetch_open_questions(db)
+    print(f"Fragen zu matchen: {len(questions)}")
+    if not questions:
+        return
+
+    # Lade alle paragraph-embeddings
+    print("Lade paragraph-embeddings…")
+    vectors, meta = get_all_embeddings(None)
+    if vectors is None:
+        print("Keine Embeddings vorhanden — abbruch.")
+        return
+    nan_mask = np.isnan(vectors).any(axis=1)
+    if nan_mask.any():
+        print(f"  {nan_mask.sum()} NaN-Vektoren maskiert")
+        vectors[nan_mask] = 0
+    print(f"  {len(meta)} Vektoren geladen")
+
+    # Embedde Fragen in Batches
+    print(f"Embedde {len(questions)} Fragen…")
+    q_vecs = []
+    for i in range(0, len(questions), EMBED_BATCH):
+        batch = questions[i:i + EMBED_BATCH]
+        texts = [q["question_text"][:500] for q in batch]
+        try:
+            embs = embed_batch(client, texts)
+        except Exception as e:
+            print(f"  Embedding-Batch {i // EMBED_BATCH + 1} fehler: {e}")
+            time.sleep(2)
+            embs = [None] * len(batch)
+        for q, emb in zip(batch, embs):
+            if emb is None:
+                q_vecs.append(None)
+            else:
+                v = np.array(emb, dtype=np.float32)
+                v /= np.linalg.norm(v) or 1
+                q_vecs.append(v)
+    print(f"  {sum(1 for v in q_vecs if v is not None)} Frage-Embeddings ok")
+
+    budget = Budget(hard_limit_usd=HARD_BUDGET_USD)
+
+    matched = 0
+    no_answer = 0
+    skipped_low_score = 0
+    parse_failed = 0
+
+    for i, (q, q_vec) in enumerate(zip(questions, q_vecs)):
+        if budget.over():
+            print(f"!! Budget ({budget.cost():.4f} USD) erreicht — Abbruch nach {i} Fragen")
+            break
+        if q_vec is None:
+            continue
+
+        cand, score = best_candidate(q_vec, vectors, meta, q["podcast_id"], q["episode_id"], CROSS_PODCAST)
+        if cand is None or score < MIN_SCORE:
+            skipped_low_score += 1
+            continue
+
+        cand_text = db.execute(
+            "SELECT text FROM paragraphs WHERE id=?", (cand["id"],)
+        ).fetchone()["text"]
+
+        result, err = verify(client, q["question_text"], cand_text, budget)
+        if result is None:
+            parse_failed += 1
+            continue
+
+        ans = (result.get("answers") or "").lower()
+        if ans in ("yes", "partial"):
+            db.execute(
+                "UPDATE questions SET answered=?, answered_by_podcast=?, "
+                "answered_by_episode=?, answered_by_idx=? WHERE id=?",
+                (ans, cand["podcast_id"], cand["episode_id"], cand["idx"], q["id"]),
+            )
+            matched += 1
+        else:
+            no_answer += 1
+
+        if (i + 1) % 20 == 0:
+            db.commit()
+            print(f"  [{i+1}/{len(questions)}] matched={matched} no_answer={no_answer} "
+                  f"skipped={skipped_low_score} parse_err={parse_failed} cost=${budget.cost():.4f}")
+        time.sleep(0.25)
+
+    db.commit()
+
+    print()
+    print("=== Zusammenfassung ===")
+    print(f"  matched (yes/partial): {matched}")
+    print(f"  no_answer:             {no_answer}")
+    print(f"  skipped (score<{MIN_SCORE}): {skipped_low_score}")
+    print(f"  parse-failures:        {parse_failed}")
+    print(f"  Tokens in={budget.tokens_in} out={budget.tokens_out}")
+    print(f"  Kosten ~${budget.cost():.4f}")
+
+    # Verteilung nach run
+    stats = db.execute("SELECT answered, COUNT(*) FROM questions GROUP BY answered").fetchall()
+    print("  questions.answered nach Lauf:")
+    for s in stats:
+        print(f"    {s[0]}: {s[1]}")
+    db.close()
+
+
+if __name__ == "__main__":
+    main()
--- a/scripts/match_claims.py
+++ b/scripts/match_claims.py
@ -0,0 +1,270 @@
+#!/usr/bin/env python3
+"""#16 Claim-Verification Stufe 2: matche Claims gegen Bestaetigung/Widerspruch in anderen Episoden.
+
+Vorgehen:
+1. Lade Claims (default verifiable=1, optional alle).
+2. Embedde jeden Claim-Text und suche per Cosinus den besten Kandidaten in anderen Episoden.
+3. Bei score >= MIN_SCORE: Qwen-Verifikation: 'belegt' / 'widerspricht' / 'erweitert' / 'kein_bezug'.
+4. Schreibe Treffer in neue Tabelle claim_matches.
+
+Nutzung:
+    DASHSCOPE_API_KEY=... python3 match_claims.py [db-pfad] [limit]
+
+Optionen:
+    --cross-podcast       erlaubt Treffer in anderen Podcasts
+    --include-non-verifiable  matche auch Claims, die nicht als verifizierbar markiert sind
+"""
+
+import json
+import os
+import sqlite3
+import sys
+import time
+from pathlib import Path
+
+import numpy as np
+from openai import OpenAI
+
+sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
+from json_utils import parse_llm_json
+
+ROOT = Path(__file__).resolve().parent.parent
+sys.path.insert(0, str(ROOT / "backend"))
+from database import get_all_embeddings  # noqa: E402
+
+DB_PATH = sys.argv[1] if len(sys.argv) > 1 else "data/db.sqlite"
+LIMIT = int(sys.argv[2]) if len(sys.argv) > 2 and not sys.argv[2].startswith("--") else 500
+CROSS_PODCAST = "--cross-podcast" in sys.argv
+INCLUDE_NON_VERIFIABLE = "--include-non-verifiable" in sys.argv
+
+API_KEY = os.environ.get("DASHSCOPE_API_KEY", "")
+BASE_URL = "https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
+EMBED_MODEL = "text-embedding-v3"
+LLM_MODEL = "qwen-plus"
+EMBED_BATCH = 6
+MIN_SCORE = 0.55
+HARD_BUDGET_USD = 1.50
+
+COST_IN = 0.0008 / 1000
+COST_OUT = 0.002 / 1000
+
+SYSTEM_PROMPT = """Du erhaeltst eine prueffbare Behauptung aus einem Podcast und einen Kandidat-Absatz aus einer anderen Episode.
+
+Pruefe die logische Beziehung des Kandidaten zur Behauptung. Antworte NUR mit JSON:
+{"relation": "belegt" | "widerspricht" | "erweitert" | "kein_bezug", "reason": "1 Satz Begruendung"}
+
+- "belegt": der Kandidat liefert Evidenz/Daten, die die Behauptung stuetzen.
+- "widerspricht": der Kandidat widerspricht der Behauptung oder nennt Gegenargumente.
+- "erweitert": der Kandidat ergaenzt die Behauptung um Aspekte, ohne ihr zuzustimmen oder zu widersprechen.
+- "kein_bezug": kein logischer Bezug, auch wenn das Thema verwandt ist."""
+
+
+def setup_db(db):
+    db.executescript("""
+    CREATE TABLE IF NOT EXISTS claim_matches (
+        id INTEGER PRIMARY KEY AUTOINCREMENT,
+        claim_id INTEGER NOT NULL,
+        target_podcast TEXT NOT NULL,
+        target_episode TEXT NOT NULL,
+        target_idx INTEGER NOT NULL,
+        relation TEXT NOT NULL,
+        reason TEXT,
+        score REAL,
+        FOREIGN KEY (claim_id) REFERENCES claims(id)
+    );
+    CREATE INDEX IF NOT EXISTS idx_claim_matches ON claim_matches(claim_id);
+    CREATE INDEX IF NOT EXISTS idx_claim_matches_relation ON claim_matches(relation);
+    """)
+
+
+def fetch_claims(db):
+    where = "WHERE 1=1"
+    if not INCLUDE_NON_VERIFIABLE:
+        where += " AND c.verifiable = 1"
+    where += " AND NOT EXISTS (SELECT 1 FROM claim_matches m WHERE m.claim_id = c.id)"
+    rows = db.execute(f"""
+        SELECT c.id, c.podcast_id, c.episode_id, c.paragraph_idx, c.claim_text, c.claim_type
+        FROM claims c
+        {where}
+        ORDER BY c.id
+        LIMIT ?
+    """, (LIMIT,)).fetchall()
+    return rows
+
+
+def embed_batch(client, texts):
+    resp = client.embeddings.create(model=EMBED_MODEL, input=texts, dimensions=1024)
+    return [item.embedding for item in resp.data]
+
+
+def best_candidate(c_vec, vectors, meta, exclude_podcast, exclude_episode, allow_cross):
+    scores = vectors @ c_vec
+    order = np.argsort(scores)[::-1]
+    for idx in order[:30]:
+        m = meta[idx]
+        if m["podcast_id"] == exclude_podcast and m["episode_id"] == exclude_episode:
+            continue
+        if not allow_cross and m["podcast_id"] != exclude_podcast:
+            continue
+        return m, float(scores[idx])
+    return None, 0.0
+
+
+class Budget:
+    def __init__(self, hard_limit_usd):
+        self.hard_limit = hard_limit_usd
+        self.tokens_in = 0
+        self.tokens_out = 0
+
+    def add(self, usage):
+        if usage:
+            self.tokens_in += getattr(usage, "prompt_tokens", 0) or 0
+            self.tokens_out += getattr(usage, "completion_tokens", 0) or 0
+
+    def cost(self):
+        return self.tokens_in * COST_IN + self.tokens_out * COST_OUT
+
+    def over(self):
+        return self.cost() > self.hard_limit
+
+
+def verify(client, claim_text, candidate_text, budget):
+    user_msg = (
+        f"BEHAUPTUNG:\n\"{claim_text}\"\n\n"
+        f"KANDIDAT-ABSATZ:\n\"{candidate_text[:1000]}\""
+    )
+    last_err = None
+    for attempt in range(2):
+        try:
+            resp = client.chat.completions.create(
+                model=LLM_MODEL,
+                messages=[
+                    {"role": "system", "content": SYSTEM_PROMPT},
+                    {"role": "user", "content": user_msg},
+                ],
+                temperature=0.0,
+                max_tokens=200,
+            )
+            budget.add(getattr(resp, "usage", None))
+            content = resp.choices[0].message.content
+            try:
+                return parse_llm_json(content, expect="object"), None
+            except ValueError as pe:
+                last_err = f"parse: {pe}"
+                break
+        except Exception as e:
+            last_err = str(e)
+            if attempt < 1:
+                time.sleep(2)
+                continue
+    return None, last_err
+
+
+def main():
+    if not API_KEY:
+        print("DASHSCOPE_API_KEY nicht gesetzt.")
+        sys.exit(1)
+    client = OpenAI(api_key=API_KEY, base_url=BASE_URL, timeout=60.0, max_retries=1)
+
+    db = sqlite3.connect(DB_PATH, timeout=30.0)
+    db.execute("PRAGMA busy_timeout=30000")
+    db.row_factory = sqlite3.Row
+    setup_db(db)
+
+    claims = fetch_claims(db)
+    print(f"Claims zu matchen: {len(claims)}")
+    if not claims:
+        return
+
+    print("Lade paragraph-embeddings…")
+    vectors, meta = get_all_embeddings(None)
+    if vectors is None:
+        print("Keine Embeddings vorhanden — abbruch.")
+        return
+    nan_mask = np.isnan(vectors).any(axis=1)
+    if nan_mask.any():
+        print(f"  {nan_mask.sum()} NaN-Vektoren maskiert")
+        vectors[nan_mask] = 0
+    print(f"  {len(meta)} Vektoren geladen")
+
+    print(f"Embedde {len(claims)} Claims…")
+    c_vecs = []
+    for i in range(0, len(claims), EMBED_BATCH):
+        batch = claims[i:i + EMBED_BATCH]
+        texts = [c["claim_text"][:500] for c in batch]
+        try:
+            embs = embed_batch(client, texts)
+        except Exception as e:
+            print(f"  Embedding-Batch {i // EMBED_BATCH + 1} fehler: {e}")
+            time.sleep(2)
+            embs = [None] * len(batch)
+        for emb in embs:
+            if emb is None:
+                c_vecs.append(None)
+            else:
+                v = np.array(emb, dtype=np.float32)
+                v /= np.linalg.norm(v) or 1
+                c_vecs.append(v)
+
+    budget = Budget(hard_limit_usd=HARD_BUDGET_USD)
+    rel_counts = {"belegt": 0, "widerspricht": 0, "erweitert": 0, "kein_bezug": 0}
+    skipped_low_score = 0
+    parse_failed = 0
+
+    for i, (c, c_vec) in enumerate(zip(claims, c_vecs)):
+        if budget.over():
+            print(f"!! Budget ({budget.cost():.4f} USD) erreicht — Abbruch nach {i}")
+            break
+        if c_vec is None:
+            continue
+
+        cand, score = best_candidate(c_vec, vectors, meta, c["podcast_id"], c["episode_id"], CROSS_PODCAST)
+        if cand is None or score < MIN_SCORE:
+            skipped_low_score += 1
+            continue
+
+        cand_text = db.execute(
+            "SELECT text FROM paragraphs WHERE id=?", (cand["id"],)
+        ).fetchone()["text"]
+
+        result, err = verify(client, c["claim_text"], cand_text, budget)
+        if result is None:
+            parse_failed += 1
+            continue
+
+        rel = (result.get("relation") or "").lower()
+        if rel not in rel_counts:
+            rel = "kein_bezug"
+        rel_counts[rel] += 1
+
+        if rel != "kein_bezug":
+            db.execute(
+                "INSERT INTO claim_matches (claim_id, target_podcast, target_episode, "
+                "target_idx, relation, reason, score) VALUES (?, ?, ?, ?, ?, ?, ?)",
+                (c["id"], cand["podcast_id"], cand["episode_id"], cand["idx"],
+                 rel, (result.get("reason") or "")[:500], score),
+            )
+
+        if (i + 1) % 20 == 0:
+            db.commit()
+            print(f"  [{i+1}/{len(claims)}] belegt={rel_counts['belegt']} "
+                  f"widerspricht={rel_counts['widerspricht']} erweitert={rel_counts['erweitert']} "
+                  f"kein_bezug={rel_counts['kein_bezug']} skipped={skipped_low_score} "
+                  f"cost=${budget.cost():.4f}")
+        time.sleep(0.25)
+
+    db.commit()
+
+    print()
+    print("=== Zusammenfassung ===")
+    for k, v in rel_counts.items():
+        print(f"  {k}: {v}")
+    print(f"  skipped (score<{MIN_SCORE}): {skipped_low_score}")
+    print(f"  parse-failures:        {parse_failed}")
+    print(f"  Tokens in={budget.tokens_in} out={budget.tokens_out}")
+    print(f"  Kosten ~${budget.cost():.4f}")
+    db.close()
+
+
+if __name__ == "__main__":
+    main()