Suche auf Anträge einschränken: Typ-Erkennung + Filter pro Adapter #127

New Issue

tobias · 2026-04-12T11:57:30+02:00

tobias commented

2026-04-12 11:57:30 +02:00

Kontext

Der GWÖ-Antragsprüfer bewertet aktuell ALLE Drucksachen-Typen gleich — Kleine Anfragen, Große Anfragen, Beschlussempfehlungen, Unterrichtungen etc. werden genauso bewertet wie echte Anträge und Gesetzentwürfe. Das führt zu sinnlosen Bewertungen (z.B. Kleine Anfrage 18/18448 hat GWÖ-Score 9.0, wird aber nie abgestimmt).

Ziel

Adapter-Suche auf Anträge/Gesetzentwürfe einschränken — nur Dokumente die zur Abstimmung stehen
Original-Typ vom Landtag übernehmen — Drucksache.typ wird mit dem Original-Typ des jeweiligen Parlaments befüllt (z.B. "Antrag", "Gesetzentwurf", "Kleine Anfrage", "Dringlichkeitsantrag")
Normierte Antragstypen via Übersetzungstabelle — pro BL-Adapter mappt eine Tabelle die BL-spezifischen Typen auf normierte Kategorien

Normierte Kategorien (Vorschlag)

Normiert	Beschreibung	Abstimmung?
`antrag`	Antrag einer Fraktion / Entschließungsantrag	Ja
`gesetzentwurf`	Gesetzentwurf (Regierung oder Fraktion)	Ja
`aenderungsantrag`	Änderungsantrag zu einem Gesetzentwurf	Ja
`dringlichkeitsantrag`	Dringlichkeitsantrag (direkte Abstimmung)	Ja
`beschlussempfehlung`	Ausschuss-Empfehlung	Indirekt
`kleine_anfrage`	Kleine Anfrage (schriftl. Frage an Regierung)	Nein
`grosse_anfrage`	Große Anfrage (mündl./schriftl.)	Nein
`unterrichtung`	Regierungs-Bericht / Vorlage	Nein
`petition`	Petition / Sammelübersicht	Nein
`sonstige`	Nicht zugeordnet	?

Implementierung

1. Übersetzungstabelle pro Adapter

# In parlamente.py oder eigenes modul
DRUCKSACHE_TYP_MAP = {
    "NRW": {
        "Antrag": "antrag",
        "Gesetzentwurf": "gesetzentwurf",
        "Änderungsantrag": "aenderungsantrag",
        "Dringlichkeitsantrag": "dringlichkeitsantrag",
        "Kleine Anfrage": "kleine_anfrage",
        "Große Anfrage": "grosse_anfrage",
        "Beschlussempfehlung": "beschlussempfehlung",
        "Unterrichtung": "unterrichtung",
        # ...
    },
    "MV": { ... },
    # pro BL
}

ABSTIMMBARE_TYPEN = {"antrag", "gesetzentwurf", "aenderungsantrag", "dringlichkeitsantrag"}

2. Adapter-Änderungen

Pro Adapter:

Original-Typ aus der Landtags-API/HTML extrahieren
In Drucksache.typ speichern (Original-String vom Landtag)
Optional: dokTyp-Filter in der Suche nutzen (wenn API das unterstützt)

3. DB-Migration

ALTER TABLE assessments ADD COLUMN typ TEXT;
ALTER TABLE assessments ADD COLUMN typ_normiert TEXT;

4. Filter in der Analyse-Pipeline

if normalize_typ(doc.typ, doc.bundesland) not in ABSTIMMBARE_TYPEN:
    logger.info("Überspringe %s: typ=%s ist nicht abstimmbar", doc.drucksache, doc.typ)
    continue

Akzeptanzkriterien

Adapter-Recherche: pro BL dokumentiert welche Typen die API/Suche liefert und welche filterbar sind
Mindestens NRW-Adapter filtert auf Anträge/Gesetzentwürfe
Drucksache.typ enthält den Original-Typ vom Landtag
Übersetzungstabelle für alle aktiven BL
DB hat typ + typ_normiert Spalten
Batch-Analyse überspringt nicht-abstimmbare Typen
UI zeigt den Typ im Detail-Panel an

## Kontext Der GWÖ-Antragsprüfer bewertet aktuell ALLE Drucksachen-Typen gleich — Kleine Anfragen, Große Anfragen, Beschlussempfehlungen, Unterrichtungen etc. werden genauso bewertet wie echte Anträge und Gesetzentwürfe. Das führt zu sinnlosen Bewertungen (z.B. Kleine Anfrage 18/18448 hat GWÖ-Score 9.0, wird aber nie abgestimmt). ## Ziel 1. **Adapter-Suche auf Anträge/Gesetzentwürfe einschränken** — nur Dokumente die zur Abstimmung stehen 2. **Original-Typ vom Landtag übernehmen** — `Drucksache.typ` wird mit dem Original-Typ des jeweiligen Parlaments befüllt (z.B. "Antrag", "Gesetzentwurf", "Kleine Anfrage", "Dringlichkeitsantrag") 3. **Normierte Antragstypen** via Übersetzungstabelle — pro BL-Adapter mappt eine Tabelle die BL-spezifischen Typen auf normierte Kategorien ## Normierte Kategorien (Vorschlag) | Normiert | Beschreibung | Abstimmung? | |---|---|---| | `antrag` | Antrag einer Fraktion / Entschließungsantrag | Ja | | `gesetzentwurf` | Gesetzentwurf (Regierung oder Fraktion) | Ja | | `aenderungsantrag` | Änderungsantrag zu einem Gesetzentwurf | Ja | | `dringlichkeitsantrag` | Dringlichkeitsantrag (direkte Abstimmung) | Ja | | `beschlussempfehlung` | Ausschuss-Empfehlung | Indirekt | | `kleine_anfrage` | Kleine Anfrage (schriftl. Frage an Regierung) | **Nein** | | `grosse_anfrage` | Große Anfrage (mündl./schriftl.) | **Nein** | | `unterrichtung` | Regierungs-Bericht / Vorlage | **Nein** | | `petition` | Petition / Sammelübersicht | **Nein** | | `sonstige` | Nicht zugeordnet | ? | ## Implementierung ### 1. Übersetzungstabelle pro Adapter ```python # In parlamente.py oder eigenes modul DRUCKSACHE_TYP_MAP = { "NRW": { "Antrag": "antrag", "Gesetzentwurf": "gesetzentwurf", "Änderungsantrag": "aenderungsantrag", "Dringlichkeitsantrag": "dringlichkeitsantrag", "Kleine Anfrage": "kleine_anfrage", "Große Anfrage": "grosse_anfrage", "Beschlussempfehlung": "beschlussempfehlung", "Unterrichtung": "unterrichtung", # ... }, "MV": { ... }, # pro BL } ABSTIMMBARE_TYPEN = {"antrag", "gesetzentwurf", "aenderungsantrag", "dringlichkeitsantrag"} ``` ### 2. Adapter-Änderungen Pro Adapter: - [ ] Original-Typ aus der Landtags-API/HTML extrahieren - [ ] In `Drucksache.typ` speichern (Original-String vom Landtag) - [ ] Optional: `dokTyp`-Filter in der Suche nutzen (wenn API das unterstützt) ### 3. DB-Migration ```sql ALTER TABLE assessments ADD COLUMN typ TEXT; ALTER TABLE assessments ADD COLUMN typ_normiert TEXT; ``` ### 4. Filter in der Analyse-Pipeline ```python if normalize_typ(doc.typ, doc.bundesland) not in ABSTIMMBARE_TYPEN: logger.info("Überspringe %s: typ=%s ist nicht abstimmbar", doc.drucksache, doc.typ) continue ``` ## Akzeptanzkriterien - [ ] Adapter-Recherche: pro BL dokumentiert welche Typen die API/Suche liefert und welche filterbar sind - [ ] Mindestens NRW-Adapter filtert auf Anträge/Gesetzentwürfe - [ ] `Drucksache.typ` enthält den Original-Typ vom Landtag - [ ] Übersetzungstabelle für alle aktiven BL - [ ] DB hat `typ` + `typ_normiert` Spalten - [ ] Batch-Analyse überspringt nicht-abstimmbare Typen - [ ] UI zeigt den Typ im Detail-Panel an

tobias commented

2026-04-12 12:00:10 +02:00

Adapter Typ-Recherche — Ergebnis

Übersicht

BL	Adapter	Server-Filter?	`Drucksache.typ` gesetzt?	Quelle des Typs
NRW	OPAL (eigener)	`dokTyp=''` (leer=alle) — filterbar	✅ aus HTML `.e-document-result-item__category`	Landtags-HTML
LSA	PortalaAdapter	✅ `ETYPF="Antrag"` aktiv	✅ hardcoded `"Antrag"`	Server-Filter
BB	PortalaAdapter	✅ `ETYPF="Antrag"` aktiv	✅ aus HTML-Card `doctype_full`	HTML
RP	PortalaAdapter	✅ `ETYPF="Antrag"` aktiv	✅ aus HTML-Card	HTML
NI	PortalaAdapter	✅ `ETYPF="Antrag"` aktiv	✅ aus JSON-Comment `WEV03`	JSON
BE	PortalaAdapter	❌ `document_type=None`	✅ aus HTML-Card `doctype_full`	HTML
BW	PARLISAdapter	✅ `lines.l4="Antrag"`	✅ hardcoded `self.document_typ`	Config
SH	StarFinderCGI	✅ URL `dtyp=antrag`	✅ hardcoded `"Antrag"`	Config
BUND	BundestagAdapter	✅ `f.drucksachetyp=Antrag`	✅ aus DIP-JSON `drucksachetyp`	API
MV	ParLDokAdapter	❌ client-side only	✅ aus `hit["type"]`	JSON
HH	ParLDokAdapter	❌ client-side only	✅ aus `hit["type"]`	JSON
TH	ParLDokAdapter	❌ client-side (substring)	✅ aus `hit["type"]`	JSON
BY	BayernAdapter	❌ client-side only	✅ aus HTML `<p>Antrag...</p>`	HTML
HE	StarWebHEAdapter	❌ client-side only	✅ aus Perl-Dump `WEV03`	Perl-Dump
HB	PARiSHBAdapter	❌ kein Filter	✅ aus Regex `"Antrag vom DD.MM.YYYY"`	HTML
SL	SaarlandAdapter	❌ `Sections={}` leer	✅ aus `item["DocumentType"]`	JSON
SN	SNEdasXmlAdapter	⚠️ nur via Export-UI	✅ hardcoded `"Antrag"`	Export-Filter

Drei Kategorien

Server-seitig aktiv (7 Adapter): LSA, BB, RP, NI, BW, SH, BUND — diese filtern bereits auf Anträge, andere Typen kommen gar nicht erst zurück.

Server-seitig aktivierbar (3 Adapter): MV, HH, TH (ParLDokAdapter) — FACET_TYPE=8 mit id="Antrag" ist dokumentiert und wäre ein Ein-Zeilen-Fix in _build_search_body.

Nur client-seitig (7 Adapter): NRW, BE, BY, HE, HB, SL, SN — Typ-Information ist in der Antwort vorhanden, wird client-seitig gefiltert. Für NRW wäre dokTyp-Parameter sofort nutzbar.

Wichtigster Fix: NRW

NRW hat dokTyp='' (alle Typen) → Das erklärt warum Kleine Anfragen durchkommen. Fix:

# In NRWAdapter.search():
'dokTyp': 'Antrag',  # statt ''

Die möglichen Werte für dokTyp müssen aus dem OPAL-Formular ermittelt werden (Dropdown-Optionen).

Fazit

Drucksache.typ wird bereits von ALLEN 17 Adaptern gesetzt — der Wert kommt aus verschiedenen Quellen (HTML, JSON, Config), ist aber immer vorhanden. Was fehlt:

DB-Spalte typ + typ_normiert in assessments
NRW dokTyp-Filter auf "Antrag" setzen
Übersetzungstabelle Original-Typ → normierter Typ
UI zeigt den Typ an
Pipeline-Filter überspringt nicht-abstimmbare Typen

## Adapter Typ-Recherche — Ergebnis ### Übersicht | BL | Adapter | Server-Filter? | `Drucksache.typ` gesetzt? | Quelle des Typs | |---|---|---|---|---| | **NRW** | OPAL (eigener) | `dokTyp=''` (leer=alle) — **filterbar** | ✅ aus HTML `.e-document-result-item__category` | Landtags-HTML | | **LSA** | PortalaAdapter | ✅ `ETYPF="Antrag"` aktiv | ✅ hardcoded `"Antrag"` | Server-Filter | | **BB** | PortalaAdapter | ✅ `ETYPF="Antrag"` aktiv | ✅ aus HTML-Card `doctype_full` | HTML | | **RP** | PortalaAdapter | ✅ `ETYPF="Antrag"` aktiv | ✅ aus HTML-Card | HTML | | **NI** | PortalaAdapter | ✅ `ETYPF="Antrag"` aktiv | ✅ aus JSON-Comment `WEV03` | JSON | | **BE** | PortalaAdapter | ❌ `document_type=None` | ✅ aus HTML-Card `doctype_full` | HTML | | **BW** | PARLISAdapter | ✅ `lines.l4="Antrag"` | ✅ hardcoded `self.document_typ` | Config | | **SH** | StarFinderCGI | ✅ URL `dtyp=antrag` | ✅ hardcoded `"Antrag"` | Config | | **BUND** | BundestagAdapter | ✅ `f.drucksachetyp=Antrag` | ✅ aus DIP-JSON `drucksachetyp` | API | | **MV** | ParLDokAdapter | ❌ client-side only | ✅ aus `hit["type"]` | JSON | | **HH** | ParLDokAdapter | ❌ client-side only | ✅ aus `hit["type"]` | JSON | | **TH** | ParLDokAdapter | ❌ client-side (substring) | ✅ aus `hit["type"]` | JSON | | **BY** | BayernAdapter | ❌ client-side only | ✅ aus HTML `<p>Antrag...</p>` | HTML | | **HE** | StarWebHEAdapter | ❌ client-side only | ✅ aus Perl-Dump `WEV03` | Perl-Dump | | **HB** | PARiSHBAdapter | ❌ kein Filter | ✅ aus Regex `"Antrag vom DD.MM.YYYY"` | HTML | | **SL** | SaarlandAdapter | ❌ `Sections={}` leer | ✅ aus `item["DocumentType"]` | JSON | | **SN** | SNEdasXmlAdapter | ⚠️ nur via Export-UI | ✅ hardcoded `"Antrag"` | Export-Filter | ### Drei Kategorien **Server-seitig aktiv (7 Adapter):** LSA, BB, RP, NI, BW, SH, BUND — diese filtern bereits auf Anträge, andere Typen kommen gar nicht erst zurück. **Server-seitig aktivierbar (3 Adapter):** MV, HH, TH (ParLDokAdapter) — `FACET_TYPE=8` mit `id="Antrag"` ist dokumentiert und wäre ein Ein-Zeilen-Fix in `_build_search_body`. **Nur client-seitig (7 Adapter):** NRW, BE, BY, HE, HB, SL, SN — Typ-Information ist in der Antwort vorhanden, wird client-seitig gefiltert. Für NRW wäre `dokTyp`-Parameter sofort nutzbar. ### Wichtigster Fix: NRW NRW hat `dokTyp=''` (alle Typen) → Das erklärt warum Kleine Anfragen durchkommen. Fix: ```python # In NRWAdapter.search(): 'dokTyp': 'Antrag', # statt '' ``` Die möglichen Werte für `dokTyp` müssen aus dem OPAL-Formular ermittelt werden (Dropdown-Optionen). ### Fazit **`Drucksache.typ` wird bereits von ALLEN 17 Adaptern gesetzt** — der Wert kommt aus verschiedenen Quellen (HTML, JSON, Config), ist aber immer vorhanden. Was fehlt: 1. **DB-Spalte** `typ` + `typ_normiert` in `assessments` 2. **NRW `dokTyp`-Filter** auf "Antrag" setzen 3. **Übersetzungstabelle** Original-Typ → normierter Typ 4. **UI** zeigt den Typ an 5. **Pipeline-Filter** überspringt nicht-abstimmbare Typen

tobias commented

2026-04-12 12:32:35 +02:00

Implementiert und deployed ✅

Was gebaut wurde

app/drucksache_typen.py (neu, 80 LOC)
- Normalisierungstabelle: 14 Typ-Patterns → 10 normierte Kategorien
- normalize_typ(original) — case-insensitiv, substring-match, spezifischere zuerst
- ist_abstimmbar(typ_normiert) — {antrag, gesetzentwurf, aenderungsantrag, dringlichkeitsantrag, entschliessungsantrag}
- 16/16 Unit-Tests bestanden
Drucksache Dataclass erweitert
- Neues Feld typ_normiert: str — automatisch via __post_init__ gesetzt
- Jeder Adapter profitiert sofort ohne Code-Änderung
ParlamentAdapter._filter_abstimmbar() — zentraler Filter in der Basisklasse
- Aufgerufen an beiden Stellen wo Suchergebnisse in die Pipeline gehen (search-landtag + batch-analyse)
NRW Typ-Erkennung aus Dokument-Text
- NRW ist der einzige Adapter der nur "Drucksache" als Typ liefert (OPAL-HTML hat keinen spezifischen Typ)
- Fix: beim Analysieren werden die ersten 500 Zeichen des Dokument-Texts nach Typ-Keywords gescannt
- "Kleine Anfrage" → skip, "Antrag" → analyse, "Gesetzentwurf" → analyse
DB-Migration: typ TEXT + typ_normiert TEXT Spalten in assessments

Testergebnisse — alle 17 Adapter

BL	typ-Wert	typ_normiert	Filter aktiv?
NRW	"Drucksache" → aus Text erkannt	antrag/kleine_anfrage/...	✅ beim Analysieren
BB	"Antrag Reinhard Simon ("	antrag	✅ (Normalisierung toleriert Müll)
BE	"Antrag", "Antrag (Gesetzentwurf)"	antrag/gesetzentwurf	✅
BUND	"Antrag"	antrag	✅ (server-side)
BW	"Antrag"	antrag	✅ (server-side)
BY	"Antrag"	antrag	✅ (client-side)
HB	"Antrag"	antrag	✅
HH	"Antrag"	antrag	✅ (client-side)
LSA	"Antrag"	antrag	✅ (server-side)
MV	"Antrag"	antrag	✅ (client-side)
NI	"Antrag"	antrag	✅ (server-side)
RP	"Antrag"	antrag	✅ (server-side)
SH	"Antrag"	antrag	✅ (server-side)
SL	"Antrag"	antrag	✅
SN	"Antrag"	antrag	✅
TH	" Antrag"	antrag	✅ (.strip() in normalize)
HE	(HTTP 500 — Adapter broken)	-	-

Verifizierung

🚫 skip   18/18448  typ=Kleine Anfrage   norm=kleine_anfrage
✅ analyse 18/18081  typ=Antrag           norm=antrag
✅ analyse 18/18115  typ=Gesetzentwurf    norm=gesetzentwurf
🚫 skip   18/18443  typ=Kleine Anfrage   norm=kleine_anfrage

Kleine Anfragen werden jetzt übersprungen, Anträge und Gesetzentwürfe durchgelassen.

Schließe.

## Implementiert und deployed ✅ ### Was gebaut wurde 1. **`app/drucksache_typen.py`** (neu, 80 LOC) - Normalisierungstabelle: 14 Typ-Patterns → 10 normierte Kategorien - `normalize_typ(original)` — case-insensitiv, substring-match, spezifischere zuerst - `ist_abstimmbar(typ_normiert)` — {antrag, gesetzentwurf, aenderungsantrag, dringlichkeitsantrag, entschliessungsantrag} - 16/16 Unit-Tests bestanden 2. **`Drucksache` Dataclass erweitert** - Neues Feld `typ_normiert: str` — automatisch via `__post_init__` gesetzt - Jeder Adapter profitiert sofort ohne Code-Änderung 3. **`ParlamentAdapter._filter_abstimmbar()`** — zentraler Filter in der Basisklasse - Aufgerufen an beiden Stellen wo Suchergebnisse in die Pipeline gehen (search-landtag + batch-analyse) 4. **NRW Typ-Erkennung aus Dokument-Text** - NRW ist der einzige Adapter der nur "Drucksache" als Typ liefert (OPAL-HTML hat keinen spezifischen Typ) - Fix: beim Analysieren werden die ersten 500 Zeichen des Dokument-Texts nach Typ-Keywords gescannt - "Kleine Anfrage" → skip, "Antrag" → analyse, "Gesetzentwurf" → analyse 5. **DB-Migration**: `typ TEXT` + `typ_normiert TEXT` Spalten in assessments ### Testergebnisse — alle 17 Adapter | BL | typ-Wert | typ_normiert | Filter aktiv? | |---|---|---|---| | **NRW** | "Drucksache" → aus Text erkannt | antrag/kleine_anfrage/... | ✅ beim Analysieren | | BB | "Antrag Reinhard Simon (" | antrag | ✅ (Normalisierung toleriert Müll) | | BE | "Antrag", "Antrag (Gesetzentwurf)" | antrag/gesetzentwurf | ✅ | | BUND | "Antrag" | antrag | ✅ (server-side) | | BW | "Antrag" | antrag | ✅ (server-side) | | BY | "Antrag" | antrag | ✅ (client-side) | | HB | "Antrag" | antrag | ✅ | | HH | "Antrag" | antrag | ✅ (client-side) | | LSA | "Antrag" | antrag | ✅ (server-side) | | MV | "Antrag" | antrag | ✅ (client-side) | | NI | "Antrag" | antrag | ✅ (server-side) | | RP | "Antrag" | antrag | ✅ (server-side) | | SH | "Antrag" | antrag | ✅ (server-side) | | SL | "Antrag" | antrag | ✅ | | SN | "Antrag" | antrag | ✅ | | TH | " Antrag" | antrag | ✅ (.strip() in normalize) | | HE | (HTTP 500 — Adapter broken) | - | - | ### Verifizierung ``` 🚫 skip 18/18448 typ=Kleine Anfrage norm=kleine_anfrage ✅ analyse 18/18081 typ=Antrag norm=antrag ✅ analyse 18/18115 typ=Gesetzentwurf norm=gesetzentwurf 🚫 skip 18/18443 typ=Kleine Anfrage norm=kleine_anfrage ``` Kleine Anfragen werden jetzt übersprungen, Anträge und Gesetzentwürfe durchgelassen. Schließe.

tobias closed this issue

2026-04-12 12:32:35 +02:00

tobias referenced this issue

2026-04-20 01:06:32 +02:00

Test-Suite: Vollständigkeits-Audit + Ausbau (Phase 2 nach #50) #134

tobias referenced this issue

2026-04-20 01:07:19 +02:00

Monitoring: täglicher Scan aller Landtags-Adapter + Mail-Digest (kein Auto-Fetch) #135

tobias referenced this issue from a commit

2026-04-25 21:01:28 +02:00

feat: 16 BL-Adapter, Drucksache-Typen, Mail-Digest, Clustering, Redline-Parser

Sign in to join this conversation.