protokoll-parser: BUND (Bundestag) #148
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#148
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Stub:
app/protokoll_parsers/bund.py(siehe Modul-Docstring fuer Recherche-Findings).Status
https://dserver.bundestag.de/btp/{wp}/{wp}{n:03}.xml(auch .pdf)app/protokoll_parsers/__init__.py::PROTOKOLL_PARSERSPROTO_TARGETS-Eintrag inscripts/auto-ingest-protocols.shFormat
XML mit
<dbtplenarprotokoll>als Root, Reden in<rede>, Regie-Kommentare in<kommentar>. Kein<abstimmung>-Tag — Vote-Daten muessen aus Text extrahiert werden.Empfehlung
Fuer namentliche Abstimmungen die strukturierte Excel/XML-Quelle vom Bundestag selbst nutzen statt PDF zu parsen. Fuer Hammelsprung/Handzeichen-Abstimmungen ist Anchor-basiertes Parsing analog NRW noetig — aber Anchor-Sprache deutlich anders.
Aufwand
~1-2 Tage konzentrierte Arbeit (Reverse-Engineering + Implementierung + Tests).
Bezug
docs/protokoll-parser-roadmap.mdapp/protokoll_parsers/nrw.py(38 Tests, 19/19-Fixture-Garantie)