antragstracker/scripts/import_oparl.py

#!/usr/bin/env python3
"""
OParl-Importer für den Antragstracker Hagen.
Liest alle Papers von der ALLRIS OParl-API und speichert sie in die SQLite-DB.

Nutzung:
    python scripts/import_oparl.py                    # Voll-Import (alle Seiten)
    python scripts/import_oparl.py --resume 337       # Ab Seite 337 weitermachen
    python scripts/import_oparl.py --incremental      # Nur neue Papers (stoppt bei bekannten)
    python scripts/import_oparl.py --limit 100        # Nur 100 Papers (Test)
    python scripts/import_oparl.py --resolve-gremien  # Nur Gremien-Namen auflösen
"""

import argparse
import functools
import re
import sqlite3
import sys
import time
from pathlib import Path

import httpx

# Unbuffered print für Live-Fortschritt
print = functools.partial(print, flush=True)

OPARL_BASE = "https://allris.hagen.de/public/oparl"
PAPERS_URL = f"{OPARL_BASE}/papers"
ORGS_URL = f"{OPARL_BASE}/organizations"
PROJECT_ROOT = Path(__file__).resolve().parent.parent
SCHEMA_PATH = PROJECT_ROOT / "backend" / "src" / "tracker" / "db" / "schema.sql"
DB_PATH = PROJECT_ROOT / "data" / "tracker_remote.db"

# OParl paperType → interner Typ
PAPER_TYPE_MAP = {
    "Anfrage": "anfrage",
    "Antrag": "antrag",
    "Beschlussvorlage": "beschlussvorlage",
    "Beschlussvorlage BBM": "beschlussvorlage",
    "Beschlussvorlage WBH": "beschlussvorlage",
    "Mitteilungsvorlage": "mitteilungsvorlage",
    "Mitteilung": "mitteilungsvorlage",
    "Mitteilung WBH": "mitteilungsvorlage",
    "Stellungnahme": "stellungnahme",
    "Berichtsvorlage": "bericht",
    "Vorschlag zur Tagesordnung": "antrag",
    "Dringlichkeitsantrag": "antrag",
    "Dringlichkeitsanfrage": "anfrage",
    "Änderungsantrag": "aenderungsantrag",
    "Ergänzungsantrag": "ergaenzungsantrag",
    "Bericht": "bericht",
    "Resolution": "resolution",
}

# Regex für Aktenzeichen-Parsing
AKZ_RE = re.compile(r"^(\d+/\d+)(?:-(\d+))?$")

# Gremien-Typ aus OParl classification ableiten
GREMIUM_TYP_MAP = {
    "Rat": "rat",
    "Bezirksvertretung": "bv",
    "Ausschuss": "ausschuss",
    "Beirat": "beirat",
}


def init_db() -> sqlite3.Connection:
    """Erstellt die DB und führt schema.sql aus."""
    DB_PATH.parent.mkdir(parents=True, exist_ok=True)
    conn = sqlite3.connect(str(DB_PATH))
    conn.execute("PRAGMA journal_mode = WAL")
    conn.execute("PRAGMA foreign_keys = ON")
    conn.row_factory = sqlite3.Row
    schema = SCHEMA_PATH.read_text(encoding="utf-8")
    conn.executescript(schema)

    # Schema-Migration: oparl_id in beratungen (für Dedup)
    cols = {r[1] for r in conn.execute("PRAGMA table_info(beratungen)").fetchall()}
    if "oparl_id" not in cols:
        conn.execute("ALTER TABLE beratungen ADD COLUMN oparl_id TEXT")
        conn.execute("CREATE UNIQUE INDEX IF NOT EXISTS idx_beratungen_oparl ON beratungen(oparl_id)")
        print("  Migration: oparl_id zu beratungen hinzugefügt")

    conn.commit()
    return conn


def fetch_page(client: httpx.Client, url: str, params: dict,
               max_retries: int = 3) -> dict | None:
    """Holt eine API-Seite mit Retry-Logik."""
    for attempt in range(max_retries):
        try:
            resp = client.get(url, params=params, timeout=30)
            resp.raise_for_status()
            return resp.json()
        except httpx.TimeoutException:
            print(f"  Timeout, Versuch {attempt + 1}/{max_retries}")
            if attempt < max_retries - 1:
                time.sleep(5 * (attempt + 1))
        except Exception as e:
            print(f"  Fehler: {e}")
            if attempt < max_retries - 1:
                time.sleep(3)
    return None


def parse_aktenzeichen(reference: str | None) -> tuple[str | None, str | None, str | None]:
    """Zerlegt ein Aktenzeichen in (aktenzeichen, basis, suffix)."""
    if not reference:
        return None, None, None
    m = AKZ_RE.match(reference.strip())
    if m:
        basis = m.group(1)
        suffix = m.group(2)
        return reference.strip(), basis, f"-{suffix}" if suffix else None
    return reference.strip(), reference.strip(), None


def map_paper_type(oparl_type: str | None) -> str:
    if not oparl_type:
        return "sonstig"
    return PAPER_TYPE_MAP.get(oparl_type, "sonstig")


def is_verwaltungsvorlage(paper_type: str | None) -> bool:
    if not paper_type:
        return False
    return paper_type.startswith("Beschlussvorlage") or paper_type.startswith("Mitteilung")


def upsert_paper(conn: sqlite3.Connection, paper: dict) -> tuple[int | None, bool]:
    """Fügt ein Paper ein oder aktualisiert es.

    Returns (vorlage_id, is_new) — is_new=False means it already existed.
    """
    oparl_id = paper.get("id")
    if not oparl_id:
        return None, False

    # Check if already exists
    existing = conn.execute(
        "SELECT id FROM vorlagen WHERE oparl_id = ?", (oparl_id,)
    ).fetchone()

    reference = paper.get("reference")
    aktenzeichen, basis, suffix = parse_aktenzeichen(reference)
    oparl_type = paper.get("paperType")
    typ = map_paper_type(oparl_type)
    betreff = paper.get("name", "")
    datum = paper.get("date")
    web_url = paper.get("web")

    main_file = paper.get("mainFile")
    pdf_url = None
    if isinstance(main_file, dict):
        pdf_url = main_file.get("accessUrl") or main_file.get("downloadUrl")

    try:
        if existing:
            vorlage_id = existing["id"]
            conn.execute(
                """UPDATE vorlagen SET
                    aktenzeichen = ?, aktenzeichen_basis = ?, aktenzeichen_suffix = ?,
                    typ = ?, betreff = ?, datum_eingang = ?,
                    pdf_url = ?, web_url = ?, ist_verwaltungsvorlage = ?,
                    scraped_at = CURRENT_TIMESTAMP
                WHERE id = ?""",
                (aktenzeichen, basis, suffix, typ, betreff, datum,
                 pdf_url, web_url, is_verwaltungsvorlage(oparl_type), vorlage_id),
            )
            return vorlage_id, False
        else:
            cur = conn.execute(
                """INSERT INTO vorlagen
                   (oparl_id, aktenzeichen, aktenzeichen_basis, aktenzeichen_suffix,
                    typ, betreff, datum_eingang, pdf_url, web_url, ist_verwaltungsvorlage)
                   VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?)""",
                (oparl_id, aktenzeichen, basis, suffix,
                 typ, betreff, datum, pdf_url, web_url,
                 is_verwaltungsvorlage(oparl_type)),
            )
            return cur.lastrowid, True
    except sqlite3.Error as e:
        print(f"  DB-Fehler bei {reference}: {e}")
        return None, False


def upsert_consultations(conn: sqlite3.Connection, vorlage_id: int, paper: dict):
    """Speichert die Beratungsfolge mit Dedup über oparl_id."""
    consultations = paper.get("consultation") or []
    for cons in consultations:
        if not isinstance(cons, dict):
            continue

        cons_oparl_id = cons.get("id")

        # Gremium auflösen
        orgs = cons.get("organization") or []
        gremium_id = None
        for org_url in orgs:
            if not isinstance(org_url, str):
                continue
            # Nur typ=gr sind echte Gremien
            if "typ=gr" not in org_url:
                continue
            conn.execute(
                "INSERT OR IGNORE INTO gremien (oparl_id, name) VALUES (?, ?)",
                (org_url, _org_placeholder_name(org_url)),
            )
            row = conn.execute(
                "SELECT id FROM gremien WHERE oparl_id = ?", (org_url,)
            ).fetchone()
            if row:
                gremium_id = row["id"]

        rolle = cons.get("role")
        authoritative = cons.get("authoritative", False)

        if cons_oparl_id:
            conn.execute(
                """INSERT INTO beratungen (oparl_id, vorlage_id, gremium_id, rolle)
                   VALUES (?, ?, ?, ?)
                   ON CONFLICT(oparl_id) DO UPDATE SET
                       vorlage_id = excluded.vorlage_id,
                       gremium_id = excluded.gremium_id,
                       rolle = excluded.rolle""",
                (cons_oparl_id, vorlage_id, gremium_id, rolle),
            )
        else:
            # Fallback ohne oparl_id: prüfe auf Duplikat
            exists = conn.execute(
                """SELECT 1 FROM beratungen
                   WHERE vorlage_id = ? AND gremium_id IS ? AND rolle IS ?
                   LIMIT 1""",
                (vorlage_id, gremium_id, rolle),
            ).fetchone()
            if not exists:
                conn.execute(
                    "INSERT INTO beratungen (vorlage_id, gremium_id, rolle) VALUES (?, ?, ?)",
                    (vorlage_id, gremium_id, rolle),
                )


def insert_files(conn: sqlite3.Connection, vorlage_id: int, paper: dict):
    """Speichert Anlagen eines Papers (nur neue)."""
    aux_files = paper.get("auxiliaryFile") or []
    for f in aux_files:
        if not isinstance(f, dict):
            continue
        url = f.get("accessUrl") or f.get("downloadUrl")
        name = f.get("name") or f.get("fileName", "")
        if url:
            exists = conn.execute(
                "SELECT 1 FROM anlagen WHERE vorlage_id = ? AND url = ?",
                (vorlage_id, url),
            ).fetchone()
            if not exists:
                conn.execute(
                    "INSERT INTO anlagen (vorlage_id, dateiname, url) VALUES (?, ?, ?)",
                    (vorlage_id, name, url),
                )


def _org_placeholder_name(org_url: str) -> str:
    """Extrahiere Platzhalter-Name aus URL."""
    org_id = org_url.split("id=")[-1] if "id=" in org_url else org_url
    return f"Gremium {org_id}"


def build_suffix_references(conn: sqlite3.Connection):
    """Erstellt automatische Suffix-Referenzen."""
    print("\nErstelle Suffix-Referenzen...")
    # Parent → Child
    conn.execute(
        """INSERT OR IGNORE INTO referenzen (quelle_id, ziel_id, typ, konfidenz)
           SELECT parent.id, child.id, 'suffix', 1.0
           FROM vorlagen child
           JOIN vorlagen parent ON child.aktenzeichen_basis = parent.aktenzeichen_basis
           WHERE child.aktenzeichen_suffix IS NOT NULL
             AND parent.aktenzeichen_suffix IS NULL
             AND child.id != parent.id"""
    )
    # Sequential: -1 → -2, -2 → -3, etc.
    conn.execute(
        """INSERT OR IGNORE INTO referenzen (quelle_id, ziel_id, typ, konfidenz)
           SELECT earlier.id, later.id, 'suffix', 1.0
           FROM vorlagen later
           JOIN vorlagen earlier
             ON later.aktenzeichen_basis = earlier.aktenzeichen_basis
            AND later.aktenzeichen_suffix IS NOT NULL
            AND earlier.aktenzeichen_suffix IS NOT NULL
            AND CAST(REPLACE(later.aktenzeichen_suffix, '-', '') AS INTEGER)
              = CAST(REPLACE(earlier.aktenzeichen_suffix, '-', '') AS INTEGER) + 1
           WHERE later.id != earlier.id"""
    )
    count = conn.execute("SELECT changes()").fetchone()[0]
    conn.commit()
    print(f"  Suffix-Referenzen aktualisiert (letzte Runde: {count} neue)")


def resolve_gremien(conn: sqlite3.Connection, client: httpx.Client):
    """Löst Gremien-Namen über die OParl Organizations-API auf.

    Aktualisiert name, kuerzel und typ für alle Gremien mit Platzhalter-Namen.
    """
    print("\nLöse Gremien-Namen auf...")

    # Alle Organisationen von der API holen
    org_lookup: dict[str, dict] = {}
    page = 1
    while True:
        data = fetch_page(client, ORGS_URL, {"body": 1, "page": page})
        if not data or "data" not in data:
            break
        for org in data["data"]:
            oparl_id = org.get("id")
            if oparl_id:
                classification = org.get("classification", "")
                typ = GREMIUM_TYP_MAP.get(classification, "sonstig")
                org_lookup[oparl_id] = {
                    "name": org.get("name", ""),
                    "kuerzel": org.get("shortName", ""),
                    "typ": typ,
                    "classification": classification,
                }
        total_pages = data.get("pagination", {}).get("totalPages", page)
        if page >= total_pages:
            break
        page += 1
        time.sleep(0.2)

    print(f"  {len(org_lookup)} Organisationen von API geladen")

    # Gremien in DB aktualisieren
    updated = 0
    for row in conn.execute("SELECT id, oparl_id, name FROM gremien").fetchall():
        oparl_id = row["oparl_id"]
        if oparl_id in org_lookup:
            org = org_lookup[oparl_id]
            if org["name"] and org["name"] != row["name"]:
                conn.execute(
                    "UPDATE gremien SET name = ?, kuerzel = ?, typ = ? WHERE id = ?",
                    (org["name"], org["kuerzel"] or None, org["typ"], row["id"]),
                )
                updated += 1

    conn.commit()
    print(f"  {updated} Gremien aktualisiert")


def import_papers(conn: sqlite3.Connection, client: httpx.Client,
                  start_page: int = 1, limit: int = 0, incremental: bool = False):
    """Importiert Papers von der OParl-API.

    Args:
        start_page: Erste Seite (für --resume)
        limit: Max. Anzahl Papers (0 = alle)
        incremental: Stoppt wenn nur bereits bekannte Papers gefunden werden
    """
    # Pagination ermitteln
    print("Ermittle Seitenanzahl...")
    first = fetch_page(client, PAPERS_URL, {"body": 1, "page": 1})
    if not first or "pagination" not in first:
        print("FEHLER: Konnte API nicht erreichen")
        return

    total_pages = first["pagination"]["totalPages"]
    total_elements = first["pagination"]["totalElements"]
    print(f"  {total_elements} Papers auf {total_pages} Seiten")

    existing_count = conn.execute("SELECT COUNT(*) FROM vorlagen").fetchone()[0]
    print(f"  {existing_count} bereits in DB\n")

    total_new = 0
    total_updated = 0
    consecutive_known_pages = 0  # Für --incremental Abbruch

    for page_num in range(start_page, total_pages + 1):
        if page_num == 1 and start_page == 1:
            data = first
        else:
            data = fetch_page(client, PAPERS_URL, {"body": 1, "page": page_num})

        if not data or "data" not in data:
            print(f"  Seite {page_num} übersprungen (kein Data)")
            continue

        papers = data["data"]
        page_new = 0
        for paper in papers:
            vorlage_id, is_new = upsert_paper(conn, paper)
            if vorlage_id:
                upsert_consultations(conn, vorlage_id, paper)
                insert_files(conn, vorlage_id, paper)
                if is_new:
                    page_new += 1
                    total_new += 1
                else:
                    total_updated += 1

        conn.commit()

        progress = (page_num / total_pages) * 100
        marker = f" (+{page_new} neu)" if page_new > 0 else " (bekannt)"
        print(f"  Seite {page_num:4d}/{total_pages} ({progress:5.1f}%)"
              f" — {len(papers)} Papers{marker}"
              f" — neu: {total_new}, aktualisiert: {total_updated}")

        # Incremental: Abbruch wenn 3 Seiten hintereinander nur bekannte Papers
        if incremental:
            if page_new == 0:
                consecutive_known_pages += 1
                if consecutive_known_pages >= 3:
                    print(f"\n  Inkrementell: 3 Seiten ohne neue Papers, stoppe.")
                    break
            else:
                consecutive_known_pages = 0

        if limit and (total_new + total_updated) >= limit:
            print(f"\n  Limit von {limit} erreicht, stoppe.")
            break

        # Schonende Pause
        time.sleep(0.3)
        if page_num % 100 == 0:
            print(f"  Checkpoint Seite {page_num} — Pause 5s...")
            time.sleep(5)

    return total_new, total_updated


def print_stats(conn: sqlite3.Connection):
    """Gibt aktuelle DB-Statistiken aus."""
    print(f"\n=== Datenbank-Statistiken ===")
    print(f"  Vorlagen:    {conn.execute('SELECT COUNT(*) FROM vorlagen').fetchone()[0]}")
    print(f"  Beratungen:  {conn.execute('SELECT COUNT(*) FROM beratungen').fetchone()[0]}")
    print(f"  Gremien:     {conn.execute('SELECT COUNT(*) FROM gremien').fetchone()[0]}")
    print(f"  Referenzen:  {conn.execute('SELECT COUNT(*) FROM referenzen').fetchone()[0]}")
    print(f"  Anlagen:     {conn.execute('SELECT COUNT(*) FROM anlagen').fetchone()[0]}")
    print(f"\n  Vorlagen nach Typ:")
    for r in conn.execute("SELECT typ, COUNT(*) c FROM vorlagen GROUP BY typ ORDER BY c DESC"):
        print(f"    {r['typ']:25s} {r['c']:>6d}")
    print(f"\n  Zeitraum: {conn.execute('SELECT MIN(datum_eingang) FROM vorlagen').fetchone()[0]}"
          f" bis {conn.execute('SELECT MAX(datum_eingang) FROM vorlagen').fetchone()[0]}")


def main():
    parser = argparse.ArgumentParser(description="OParl-Import für Antragstracker Hagen")
    parser.add_argument("--resume", type=int, default=0,
                        help="Ab dieser Seitennummer weitermachen")
    parser.add_argument("--incremental", action="store_true",
                        help="Nur neue Papers (stoppt bei bekannten)")
    parser.add_argument("--limit", type=int, default=0,
                        help="Max. Anzahl Papers (0 = alle)")
    parser.add_argument("--resolve-gremien", action="store_true",
                        help="Nur Gremien-Namen auflösen, kein Paper-Import")
    parser.add_argument("--no-references", action="store_true",
                        help="Suffix-Referenzen nicht neu bauen")
    args = parser.parse_args()

    print("=== Antragstracker Hagen — OParl-Import ===\n")

    conn = init_db()
    print(f"  DB: {DB_PATH}\n")

    client = httpx.Client(
        headers={"Accept": "application/json"},
        follow_redirects=True,
    )

    try:
        if args.resolve_gremien:
            resolve_gremien(conn, client)
            print_stats(conn)
            return

        # Paper-Import
        start_page = args.resume if args.resume > 0 else 1
        if args.resume:
            print(f"Setze Import ab Seite {start_page} fort...\n")
        elif args.incremental:
            print("Inkrementeller Import (nur neue Papers)...\n")
        else:
            print("Voll-Import...\n")

        import_papers(conn, client, start_page, args.limit, args.incremental)

        # Gremien-Namen auflösen
        resolve_gremien(conn, client)

        # Suffix-Referenzen
        if not args.no_references:
            build_suffix_references(conn)

        print_stats(conn)

    finally:
        client.close()
        conn.close()


if __name__ == "__main__":
    main()
feat: Initial commit — Antragstracker Hagen Vollständige Pipeline zur Analyse kommunaler Vorlagen aus ALLRIS: - OParl-Import: 20.149 Vorlagen - PDF-Extraktion: 10.045 Volltexte (adaptives Throttling) - KI-Zusammenfassungen: 10.026 via Qwen Plus (parallelisiert) - Beratungsfolge-Scraper: Beschlusstexte + Wortprotokolle - Abstimmungs-Analyse mit Koalitionsmatrix - Georeferenzierung (Nominatim) Stack: FastAPI + SvelteKit + SQLite Deployment: Docker + Traefik auf VServer Daten (DB, Logs) nicht im Repo — siehe Restic-Backup. Repo-Setup: scripts/setup.sh für Neuaufbau aus OParl-API. 2026-03-30 16:37:58 +02:00			`#!/usr/bin/env python3`
			`"""`
			`OParl-Importer für den Antragstracker Hagen.`
			`Liest alle Papers von der ALLRIS OParl-API und speichert sie in die SQLite-DB.`

			`Nutzung:`
			`python scripts/import_oparl.py # Voll-Import (alle Seiten)`
			`python scripts/import_oparl.py --resume 337 # Ab Seite 337 weitermachen`
			`python scripts/import_oparl.py --incremental # Nur neue Papers (stoppt bei bekannten)`
			`python scripts/import_oparl.py --limit 100 # Nur 100 Papers (Test)`
			`python scripts/import_oparl.py --resolve-gremien # Nur Gremien-Namen auflösen`
			`"""`

			`import argparse`
			`import functools`
			`import re`
			`import sqlite3`
			`import sys`
			`import time`
			`from pathlib import Path`

			`import httpx`

			`# Unbuffered print für Live-Fortschritt`
			`print = functools.partial(print, flush=True)`

			`OPARL_BASE = "https://allris.hagen.de/public/oparl"`
			`PAPERS_URL = f"{OPARL_BASE}/papers"`
			`ORGS_URL = f"{OPARL_BASE}/organizations"`
			`PROJECT_ROOT = Path(__file__).resolve().parent.parent`
			`SCHEMA_PATH = PROJECT_ROOT / "backend" / "src" / "tracker" / "db" / "schema.sql"`
			`DB_PATH = PROJECT_ROOT / "data" / "tracker_remote.db"`

			`# OParl paperType → interner Typ`
			`PAPER_TYPE_MAP = {`
			`"Anfrage": "anfrage",`
			`"Antrag": "antrag",`
			`"Beschlussvorlage": "beschlussvorlage",`
			`"Beschlussvorlage BBM": "beschlussvorlage",`
			`"Beschlussvorlage WBH": "beschlussvorlage",`
			`"Mitteilungsvorlage": "mitteilungsvorlage",`
			`"Mitteilung": "mitteilungsvorlage",`
			`"Mitteilung WBH": "mitteilungsvorlage",`
			`"Stellungnahme": "stellungnahme",`
			`"Berichtsvorlage": "bericht",`
			`"Vorschlag zur Tagesordnung": "antrag",`
			`"Dringlichkeitsantrag": "antrag",`
			`"Dringlichkeitsanfrage": "anfrage",`
			`"Änderungsantrag": "aenderungsantrag",`
			`"Ergänzungsantrag": "ergaenzungsantrag",`
			`"Bericht": "bericht",`
			`"Resolution": "resolution",`
			`}`

			`# Regex für Aktenzeichen-Parsing`
			`AKZ_RE = re.compile(r"^(\d+/\d+)(?:-(\d+))?$")`

			`# Gremien-Typ aus OParl classification ableiten`
			`GREMIUM_TYP_MAP = {`
			`"Rat": "rat",`
			`"Bezirksvertretung": "bv",`
			`"Ausschuss": "ausschuss",`
			`"Beirat": "beirat",`
			`}`


			`def init_db() -> sqlite3.Connection:`
			`"""Erstellt die DB und führt schema.sql aus."""`
			`DB_PATH.parent.mkdir(parents=True, exist_ok=True)`
			`conn = sqlite3.connect(str(DB_PATH))`
			`conn.execute("PRAGMA journal_mode = WAL")`
			`conn.execute("PRAGMA foreign_keys = ON")`
			`conn.row_factory = sqlite3.Row`
			`schema = SCHEMA_PATH.read_text(encoding="utf-8")`
			`conn.executescript(schema)`

			`# Schema-Migration: oparl_id in beratungen (für Dedup)`
			`cols = {r[1] for r in conn.execute("PRAGMA table_info(beratungen)").fetchall()}`
			`if "oparl_id" not in cols:`
			`conn.execute("ALTER TABLE beratungen ADD COLUMN oparl_id TEXT")`
			`conn.execute("CREATE UNIQUE INDEX IF NOT EXISTS idx_beratungen_oparl ON beratungen(oparl_id)")`
			`print(" Migration: oparl_id zu beratungen hinzugefügt")`

			`conn.commit()`
			`return conn`


			`def fetch_page(client: httpx.Client, url: str, params: dict,`
			`max_retries: int = 3) -> dict \| None:`
			`"""Holt eine API-Seite mit Retry-Logik."""`
			`for attempt in range(max_retries):`
			`try:`
			`resp = client.get(url, params=params, timeout=30)`
			`resp.raise_for_status()`
			`return resp.json()`
			`except httpx.TimeoutException:`
			`print(f" Timeout, Versuch {attempt + 1}/{max_retries}")`
			`if attempt < max_retries - 1:`
			`time.sleep(5 * (attempt + 1))`
			`except Exception as e:`
			`print(f" Fehler: {e}")`
			`if attempt < max_retries - 1:`
			`time.sleep(3)`
			`return None`


			`def parse_aktenzeichen(reference: str \| None) -> tuple[str \| None, str \| None, str \| None]:`
			`"""Zerlegt ein Aktenzeichen in (aktenzeichen, basis, suffix)."""`
			`if not reference:`
			`return None, None, None`
			`m = AKZ_RE.match(reference.strip())`
			`if m:`
			`basis = m.group(1)`
			`suffix = m.group(2)`
			`return reference.strip(), basis, f"-{suffix}" if suffix else None`
			`return reference.strip(), reference.strip(), None`


			`def map_paper_type(oparl_type: str \| None) -> str:`
			`if not oparl_type:`
			`return "sonstig"`
			`return PAPER_TYPE_MAP.get(oparl_type, "sonstig")`


			`def is_verwaltungsvorlage(paper_type: str \| None) -> bool:`
			`if not paper_type:`
			`return False`
			`return paper_type.startswith("Beschlussvorlage") or paper_type.startswith("Mitteilung")`


			`def upsert_paper(conn: sqlite3.Connection, paper: dict) -> tuple[int \| None, bool]:`
			`"""Fügt ein Paper ein oder aktualisiert es.`

			`Returns (vorlage_id, is_new) — is_new=False means it already existed.`
			`"""`
			`oparl_id = paper.get("id")`
			`if not oparl_id:`
			`return None, False`

			`# Check if already exists`
			`existing = conn.execute(`
			`"SELECT id FROM vorlagen WHERE oparl_id = ?", (oparl_id,)`
			`).fetchone()`

			`reference = paper.get("reference")`
			`aktenzeichen, basis, suffix = parse_aktenzeichen(reference)`
			`oparl_type = paper.get("paperType")`
			`typ = map_paper_type(oparl_type)`
			`betreff = paper.get("name", "")`
			`datum = paper.get("date")`
			`web_url = paper.get("web")`

			`main_file = paper.get("mainFile")`
			`pdf_url = None`
			`if isinstance(main_file, dict):`
			`pdf_url = main_file.get("accessUrl") or main_file.get("downloadUrl")`

			`try:`
			`if existing:`
			`vorlage_id = existing["id"]`
			`conn.execute(`
			`"""UPDATE vorlagen SET`
			`aktenzeichen = ?, aktenzeichen_basis = ?, aktenzeichen_suffix = ?,`
			`typ = ?, betreff = ?, datum_eingang = ?,`
			`pdf_url = ?, web_url = ?, ist_verwaltungsvorlage = ?,`
			`scraped_at = CURRENT_TIMESTAMP`
			`WHERE id = ?""",`
			`(aktenzeichen, basis, suffix, typ, betreff, datum,`
			`pdf_url, web_url, is_verwaltungsvorlage(oparl_type), vorlage_id),`
			`)`
			`return vorlage_id, False`
			`else:`
			`cur = conn.execute(`
			`"""INSERT INTO vorlagen`
			`(oparl_id, aktenzeichen, aktenzeichen_basis, aktenzeichen_suffix,`
			`typ, betreff, datum_eingang, pdf_url, web_url, ist_verwaltungsvorlage)`
			`VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?)""",`
			`(oparl_id, aktenzeichen, basis, suffix,`
			`typ, betreff, datum, pdf_url, web_url,`
			`is_verwaltungsvorlage(oparl_type)),`
			`)`
			`return cur.lastrowid, True`
			`except sqlite3.Error as e:`
			`print(f" DB-Fehler bei {reference}: {e}")`
			`return None, False`


			`def upsert_consultations(conn: sqlite3.Connection, vorlage_id: int, paper: dict):`
			`"""Speichert die Beratungsfolge mit Dedup über oparl_id."""`
			`consultations = paper.get("consultation") or []`
			`for cons in consultations:`
			`if not isinstance(cons, dict):`
			`continue`

			`cons_oparl_id = cons.get("id")`

			`# Gremium auflösen`
			`orgs = cons.get("organization") or []`
			`gremium_id = None`
			`for org_url in orgs:`
			`if not isinstance(org_url, str):`
			`continue`
			`# Nur typ=gr sind echte Gremien`
			`if "typ=gr" not in org_url:`
			`continue`
			`conn.execute(`
			`"INSERT OR IGNORE INTO gremien (oparl_id, name) VALUES (?, ?)",`
			`(org_url, _org_placeholder_name(org_url)),`
			`)`
			`row = conn.execute(`
			`"SELECT id FROM gremien WHERE oparl_id = ?", (org_url,)`
			`).fetchone()`
			`if row:`
			`gremium_id = row["id"]`

			`rolle = cons.get("role")`
			`authoritative = cons.get("authoritative", False)`

			`if cons_oparl_id:`
			`conn.execute(`
			`"""INSERT INTO beratungen (oparl_id, vorlage_id, gremium_id, rolle)`
			`VALUES (?, ?, ?, ?)`
			`ON CONFLICT(oparl_id) DO UPDATE SET`
			`vorlage_id = excluded.vorlage_id,`
			`gremium_id = excluded.gremium_id,`
			`rolle = excluded.rolle""",`
			`(cons_oparl_id, vorlage_id, gremium_id, rolle),`
			`)`
			`else:`
			`# Fallback ohne oparl_id: prüfe auf Duplikat`
			`exists = conn.execute(`
			`"""SELECT 1 FROM beratungen`
			`WHERE vorlage_id = ? AND gremium_id IS ? AND rolle IS ?`
			`LIMIT 1""",`
			`(vorlage_id, gremium_id, rolle),`
			`).fetchone()`
			`if not exists:`
			`conn.execute(`
			`"INSERT INTO beratungen (vorlage_id, gremium_id, rolle) VALUES (?, ?, ?)",`
			`(vorlage_id, gremium_id, rolle),`
			`)`


			`def insert_files(conn: sqlite3.Connection, vorlage_id: int, paper: dict):`
			`"""Speichert Anlagen eines Papers (nur neue)."""`
			`aux_files = paper.get("auxiliaryFile") or []`
			`for f in aux_files:`
			`if not isinstance(f, dict):`
			`continue`
			`url = f.get("accessUrl") or f.get("downloadUrl")`
			`name = f.get("name") or f.get("fileName", "")`
			`if url:`
			`exists = conn.execute(`
			`"SELECT 1 FROM anlagen WHERE vorlage_id = ? AND url = ?",`
			`(vorlage_id, url),`
			`).fetchone()`
			`if not exists:`
			`conn.execute(`
			`"INSERT INTO anlagen (vorlage_id, dateiname, url) VALUES (?, ?, ?)",`
			`(vorlage_id, name, url),`
			`)`


			`def _org_placeholder_name(org_url: str) -> str:`
			`"""Extrahiere Platzhalter-Name aus URL."""`
			`org_id = org_url.split("id=")[-1] if "id=" in org_url else org_url`
			`return f"Gremium {org_id}"`


			`def build_suffix_references(conn: sqlite3.Connection):`
			`"""Erstellt automatische Suffix-Referenzen."""`
			`print("\nErstelle Suffix-Referenzen...")`
			`# Parent → Child`
			`conn.execute(`
			`"""INSERT OR IGNORE INTO referenzen (quelle_id, ziel_id, typ, konfidenz)`
			`SELECT parent.id, child.id, 'suffix', 1.0`
			`FROM vorlagen child`
			`JOIN vorlagen parent ON child.aktenzeichen_basis = parent.aktenzeichen_basis`
			`WHERE child.aktenzeichen_suffix IS NOT NULL`
			`AND parent.aktenzeichen_suffix IS NULL`
			`AND child.id != parent.id"""`
			`)`
			`# Sequential: -1 → -2, -2 → -3, etc.`
			`conn.execute(`
			`"""INSERT OR IGNORE INTO referenzen (quelle_id, ziel_id, typ, konfidenz)`
			`SELECT earlier.id, later.id, 'suffix', 1.0`
			`FROM vorlagen later`
			`JOIN vorlagen earlier`
			`ON later.aktenzeichen_basis = earlier.aktenzeichen_basis`
			`AND later.aktenzeichen_suffix IS NOT NULL`
			`AND earlier.aktenzeichen_suffix IS NOT NULL`
			`AND CAST(REPLACE(later.aktenzeichen_suffix, '-', '') AS INTEGER)`
			`= CAST(REPLACE(earlier.aktenzeichen_suffix, '-', '') AS INTEGER) + 1`
			`WHERE later.id != earlier.id"""`
			`)`
			`count = conn.execute("SELECT changes()").fetchone()[0]`
			`conn.commit()`
			`print(f" Suffix-Referenzen aktualisiert (letzte Runde: {count} neue)")`


			`def resolve_gremien(conn: sqlite3.Connection, client: httpx.Client):`
			`"""Löst Gremien-Namen über die OParl Organizations-API auf.`

			`Aktualisiert name, kuerzel und typ für alle Gremien mit Platzhalter-Namen.`
			`"""`
			`print("\nLöse Gremien-Namen auf...")`

			`# Alle Organisationen von der API holen`
			`org_lookup: dict[str, dict] = {}`
			`page = 1`
			`while True:`
			`data = fetch_page(client, ORGS_URL, {"body": 1, "page": page})`
			`if not data or "data" not in data:`
			`break`
			`for org in data["data"]:`
			`oparl_id = org.get("id")`
			`if oparl_id:`
			`classification = org.get("classification", "")`
			`typ = GREMIUM_TYP_MAP.get(classification, "sonstig")`
			`org_lookup[oparl_id] = {`
			`"name": org.get("name", ""),`
			`"kuerzel": org.get("shortName", ""),`
			`"typ": typ,`
			`"classification": classification,`
			`}`
			`total_pages = data.get("pagination", {}).get("totalPages", page)`
			`if page >= total_pages:`
			`break`
			`page += 1`
			`time.sleep(0.2)`

			`print(f" {len(org_lookup)} Organisationen von API geladen")`

			`# Gremien in DB aktualisieren`
			`updated = 0`
			`for row in conn.execute("SELECT id, oparl_id, name FROM gremien").fetchall():`
			`oparl_id = row["oparl_id"]`
			`if oparl_id in org_lookup:`
			`org = org_lookup[oparl_id]`
			`if org["name"] and org["name"] != row["name"]:`
			`conn.execute(`
			`"UPDATE gremien SET name = ?, kuerzel = ?, typ = ? WHERE id = ?",`
			`(org["name"], org["kuerzel"] or None, org["typ"], row["id"]),`
			`)`
			`updated += 1`

			`conn.commit()`
			`print(f" {updated} Gremien aktualisiert")`


			`def import_papers(conn: sqlite3.Connection, client: httpx.Client,`
			`start_page: int = 1, limit: int = 0, incremental: bool = False):`
			`"""Importiert Papers von der OParl-API.`

			`Args:`
			`start_page: Erste Seite (für --resume)`
			`limit: Max. Anzahl Papers (0 = alle)`
			`incremental: Stoppt wenn nur bereits bekannte Papers gefunden werden`
			`"""`
			`# Pagination ermitteln`
			`print("Ermittle Seitenanzahl...")`
			`first = fetch_page(client, PAPERS_URL, {"body": 1, "page": 1})`
			`if not first or "pagination" not in first:`
			`print("FEHLER: Konnte API nicht erreichen")`
			`return`

			`total_pages = first["pagination"]["totalPages"]`
			`total_elements = first["pagination"]["totalElements"]`
			`print(f" {total_elements} Papers auf {total_pages} Seiten")`

			`existing_count = conn.execute("SELECT COUNT(*) FROM vorlagen").fetchone()[0]`
			`print(f" {existing_count} bereits in DB\n")`

			`total_new = 0`
			`total_updated = 0`
			`consecutive_known_pages = 0 # Für --incremental Abbruch`

			`for page_num in range(start_page, total_pages + 1):`
			`if page_num == 1 and start_page == 1:`
			`data = first`
			`else:`
			`data = fetch_page(client, PAPERS_URL, {"body": 1, "page": page_num})`

			`if not data or "data" not in data:`
			`print(f" Seite {page_num} übersprungen (kein Data)")`
			`continue`

			`papers = data["data"]`
			`page_new = 0`
			`for paper in papers:`
			`vorlage_id, is_new = upsert_paper(conn, paper)`
			`if vorlage_id:`
			`upsert_consultations(conn, vorlage_id, paper)`
			`insert_files(conn, vorlage_id, paper)`
			`if is_new:`
			`page_new += 1`
			`total_new += 1`
			`else:`
			`total_updated += 1`

			`conn.commit()`

			`progress = (page_num / total_pages) * 100`
			`marker = f" (+{page_new} neu)" if page_new > 0 else " (bekannt)"`
			`print(f" Seite {page_num:4d}/{total_pages} ({progress:5.1f}%)"`
			`f" — {len(papers)} Papers{marker}"`
			`f" — neu: {total_new}, aktualisiert: {total_updated}")`

			`# Incremental: Abbruch wenn 3 Seiten hintereinander nur bekannte Papers`
			`if incremental:`
			`if page_new == 0:`
			`consecutive_known_pages += 1`
			`if consecutive_known_pages >= 3:`
			`print(f"\n Inkrementell: 3 Seiten ohne neue Papers, stoppe.")`
			`break`
			`else:`
			`consecutive_known_pages = 0`

			`if limit and (total_new + total_updated) >= limit:`
			`print(f"\n Limit von {limit} erreicht, stoppe.")`
			`break`

			`# Schonende Pause`
			`time.sleep(0.3)`
			`if page_num % 100 == 0:`
			`print(f" Checkpoint Seite {page_num} — Pause 5s...")`
			`time.sleep(5)`

			`return total_new, total_updated`


			`def print_stats(conn: sqlite3.Connection):`
			`"""Gibt aktuelle DB-Statistiken aus."""`
			`print(f"\n=== Datenbank-Statistiken ===")`
			`print(f" Vorlagen: {conn.execute('SELECT COUNT(*) FROM vorlagen').fetchone()[0]}")`
			`print(f" Beratungen: {conn.execute('SELECT COUNT(*) FROM beratungen').fetchone()[0]}")`
			`print(f" Gremien: {conn.execute('SELECT COUNT(*) FROM gremien').fetchone()[0]}")`
			`print(f" Referenzen: {conn.execute('SELECT COUNT(*) FROM referenzen').fetchone()[0]}")`
			`print(f" Anlagen: {conn.execute('SELECT COUNT(*) FROM anlagen').fetchone()[0]}")`
			`print(f"\n Vorlagen nach Typ:")`
			`for r in conn.execute("SELECT typ, COUNT(*) c FROM vorlagen GROUP BY typ ORDER BY c DESC"):`
			`print(f" {r['typ']:25s} {r['c']:>6d}")`
			`print(f"\n Zeitraum: {conn.execute('SELECT MIN(datum_eingang) FROM vorlagen').fetchone()[0]}"`
			`f" bis {conn.execute('SELECT MAX(datum_eingang) FROM vorlagen').fetchone()[0]}")`


			`def main():`
			`parser = argparse.ArgumentParser(description="OParl-Import für Antragstracker Hagen")`
			`parser.add_argument("--resume", type=int, default=0,`
			`help="Ab dieser Seitennummer weitermachen")`
			`parser.add_argument("--incremental", action="store_true",`
			`help="Nur neue Papers (stoppt bei bekannten)")`
			`parser.add_argument("--limit", type=int, default=0,`
			`help="Max. Anzahl Papers (0 = alle)")`
			`parser.add_argument("--resolve-gremien", action="store_true",`
			`help="Nur Gremien-Namen auflösen, kein Paper-Import")`
			`parser.add_argument("--no-references", action="store_true",`
			`help="Suffix-Referenzen nicht neu bauen")`
			`args = parser.parse_args()`

			`print("=== Antragstracker Hagen — OParl-Import ===\n")`

			`conn = init_db()`
			`print(f" DB: {DB_PATH}\n")`

			`client = httpx.Client(`
			`headers={"Accept": "application/json"},`
			`follow_redirects=True,`
			`)`

			`try:`
			`if args.resolve_gremien:`
			`resolve_gremien(conn, client)`
			`print_stats(conn)`
			`return`

			`# Paper-Import`
			`start_page = args.resume if args.resume > 0 else 1`
			`if args.resume:`
			`print(f"Setze Import ab Seite {start_page} fort...\n")`
			`elif args.incremental:`
			`print("Inkrementeller Import (nur neue Papers)...\n")`
			`else:`
			`print("Voll-Import...\n")`

			`import_papers(conn, client, start_page, args.limit, args.incremental)`

			`# Gremien-Namen auflösen`
			`resolve_gremien(conn, client)`

			`# Suffix-Referenzen`
			`if not args.no_references:`
			`build_suffix_references(conn)`

			`print_stats(conn)`

			`finally:`
			`client.close()`
			`conn.close()`


			`if __name__ == "__main__":`
			`main()`