LSA: VOLL-Hit-Parser für PortalaAdapter (WEV01/WEV03 + Antrag-Filter) #14
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#14
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Sub-Issue von #13. Reverse-Engineering des Tag-Schemas ist abgeschlossen, der Code-Patch für
_build_fulltext_bodyfunktioniert lokal — nur das Hit-Parsing hängt am unterschiedlichen Format zwischen Standard-Browse und Volltext-Mode.Hit-Format-Diff
WEV06.mainWEV01.mainWEV03.main(z.B."Antrag","Unterrichtung","Kleine Anfrage")WEV32.mainLayout"Antrag <Urheber> <DD.MM.YYYY> Drucksache <b>X/Y</b> ...""<Doc-Art> <Urheber> <DD.MM.YYYY> Drucksache <b>X/Y</b> (<S>)"WEV32.5Was zu tun ist
In
app/parlamente.pyPortalaAdapter._parse_hit_list_dump:WEV06|WEV01(Standard hat Vorrang).WEV03.main— wenn vorhanden und gleichAntrag, behalten; sonst überspringen. Damit funktioniert der Antrag-Filter client-side für den VOLL-Mode._RE_URHEBER_DATUMflexibler: aktuell hardcodedAntrag\s+(.+?)\s+(\d{1,2}\.\d{1,2}\.\d{4})\s+Drucksache. Stattdessen(?:Antrag|Unterrichtung|Anfrage|Gesetzentwurf|Beschlussempfehlung|...)\s+(.+?)\s+(\d{1,2}\.\d{1,2}\.\d{4})\s+Drucksache.Akzeptanzkriterien
ADAPTERS["LSA"].search("Schule", limit=10)liefert ≥10 echte Anträge mit nicht-leeremdatumund nicht-leerenfraktionenSchuleim Titel oder im VolltextDer Patch für
_build_fulltext_bodyselbst (~50 Zeilen) liegt im lokalen Working-Tree der 2026-04-08-Adapter-Session — bei Wiederaufnahme einfach reaktivieren.Verworfen — der Use-Case "echte Server-side Volltextsuche" wird zurückgestellt, weil das Schema zwischen LSA und BE nicht uniform ist (LSA akzeptiert
/VOLL, BE lehnt es mitUnable to generate queryab) und ein gemischtes Verhalten der Adapter (NRW+MV mit Volltext, BE+LSA ohne) verwirrender ist als ein einheitlicher Title-Filter überall.Stattdessen wird die Suche in allen vier Adaptern auf Title + Urheber + Schlagwort über den gesamten Datenbestand der laufenden WP umgestellt, sortiert newest-first. Tracking dafür: #18.
Wenn die Volltextsuche später wieder gewünscht wird (sobald sie für alle vier Adapter gleich umsetzbar ist), kann dieses Issue reopened werden — die HAR-Findings im vorigen Kommentar sind wertvoll und sollten erhalten bleiben.