UI SN: aktiv schalten + Wahlprogramme der WP8 indexieren #38
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#38
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Hängt ab von #26 (Scraper-Adapter für Sachsen).
Was zu tun ist
Sobald der Adapter aus #26 funktioniert und smoke-getestet ist:
bundeslaender.py:aktiv=TrueimBUNDESLAENDER["SN"]-Eintrag setzenlandtagsfraktionenin bundeslaender.py). Quellen pro Bundesland: meistabgeordnetenwatch.de, FES-Bibliothek, KAS-Archiv, Heinrich-Böll-Stiftung, Rosa-Luxemburg-Stiftung. Verifizieren viapdftotextgegen das im Programm genannte Wahldatum (Lehre aus #10 — abgeordnetenwatch tauscht alte Datei-Slugs manchmal gegen neue Programme aus).<partei>-sn-<jahr>.pdfinwebapp/app/static/referenzen/wahlprogramme.WAHLPROGRAMME["SN"]undembeddings.PROGRAMMEergänzen — siehe #10 als Vorlagebc7f4a6).project_state.mdMemory aktualisieren — neuer aktiver Bundesland-Code dazu.Beachten
feedback_legislaturprogramme): die Wahlprogramme der laufenden Wahlperiode müssen rein, keine neueren Entwürfe. Falls vor der Wahl 2029-09-02 aktiviert wird → 2021er/2022er-Programme; nach der Wahl → die zur 2029-09-02-Wahl.data/undreports/nicht — beim Indexieren immer im laufenden Container, nicht beim Build.Akzeptanzkriterien
aktiv=Trueinbundeslaender.pyembeddings.db(bald)-MarkerPhase-J-Recherche-Befund (autonomer Run #59)
HAR-Trace
TEMP/edas.landtag.sachsen.de.haranalysiert. EDAS lässt sich nicht autonom adaptieren, zwei harte Hindernisse:1. Vollwertiger ASP.NET-Webforms-Postback-Flow
3-Step-Workflow:
suchmaske_einfach.aspx(status 200) — initial Form-State setzen mit gigantischem__VIEWSTATE(>5KB base64) plus alle DevExpress-Control-IDs als Hidden-Feldersuchmaske_einfach.aspx(status 0) — Click auf den Suchbutton, browser-side abgebrochen, DevExpress Callback-API mit eigenem Wire-Format.__EVENTTARGET=ctl00$masterContentCallback$content$suchmaske$tblSearch$tabSuche$panelUmSuchmaskeEinfach$suchmaskeEinfachCallback$btn_EinfSuchetrefferliste.aspx?NavSeite=1— lädt die Result-Page aus der Server-SessionDirektzugriff auf
trefferliste.aspxohne vorherige Session redirected zuEDASError.aspx?error=session. Ein autonomer Adapter müsste den vollen Postback-Flow inklusive__VIEWSTATE-Deserialisierung und DevExpress-Wire-Format simulieren — geschätzter Aufwand: 8–15h Reverse-Engineering plus laufende Wartung bei jedem Server-Update.2.
robots.txt: Disallow: /Der Sächsische Landtag verbietet ausdrücklich automatisches Crawling. Ein scrapender Adapter wäre rechtlich/ethisch fragwürdig — das ist ein qualitatives Signal, das die anderen 9 aktivierten Landtage nicht haben.
Empfehlung
Phase J vertagt. Sinnvolle Alternativen für künftige Sessions:
Die anderen drei Phase-J-Adapter aus dem autonomen Run sind erfolgreich:
0f7d35f4a8986e278d74fErledigt durch Phase J reaktiviert / Commit
19e5fe4Weg drumherum gefunden: User exportiert wöchentlich manuell aus der EDAS-Suchmaske einen XML-Dump aller Anträge (bis 2500 Treffer/Export). Datei wird unter
data/sn-edas-export.xmlins persistent volume des Containers gelegt.SNEdasXmlAdapterparst das XML lokal — keine HTTP-Calls gegen edas.landtag.sachsen.de während dessearch()/get_document()download_text()resolved die echte PDF-URL on-demand über einen einzelnen GET gegenviewer_navigation.aspx(single GET, kein Postback) und holt dann das PDF vonws.landtag.sachsen.de/images/BÜNDNISGRÜNE/Bündnisgrüneals Sachsen-spezifischer GRÜNE-EigennameLive verifiziert: 5 Klima-Anträge inkl. 8/2100 (GRÜNE Fahrradoffensive 2025), 7/2067 mit Koalitionssatz [CDU, SPD, GRÜNE].
Beide robotsignal-Probleme adressiert:
Maintenance-Hinweis: das XML enthält die ZUM EXPORT-ZEITPUNKT vorhandenen 2500 neuesten Anträge. Bei wöchentlichem Update-Rhythmus reicht das gut aus, weil ~50-100 neue Anträge/Woche entstehen. Re-Upload via
scp data/sn-edas-export.xml vserver:/opt/gwoe-antragspruefer/data/.