protokoll-parser: BUND (Bundestag) #148

Open
opened 2026-04-28 23:03:38 +02:00 by tobias · 0 comments
Owner

Stub: app/protokoll_parsers/bund.py (siehe Modul-Docstring fuer Recherche-Findings).

Status

  • URL-Pattern recherchiert: https://dserver.bundestag.de/btp/{wp}/{wp}{n:03}.xml (auch .pdf)
  • XML-Format inspiziert (WP20 Sitzung 184)
  • Recherche-Findings im Stub-Docstring
  • Parser-Implementierung
  • Tests mit Fixture-Pinning
  • Eintrag in app/protokoll_parsers/__init__.py::PROTOKOLL_PARSERS
  • PROTO_TARGETS-Eintrag in scripts/auto-ingest-protocols.sh

Format

XML mit <dbtplenarprotokoll> als Root, Reden in <rede>, Regie-Kommentare in <kommentar>. Kein <abstimmung>-Tag — Vote-Daten muessen aus Text extrahiert werden.

Empfehlung

Fuer namentliche Abstimmungen die strukturierte Excel/XML-Quelle vom Bundestag selbst nutzen statt PDF zu parsen. Fuer Hammelsprung/Handzeichen-Abstimmungen ist Anchor-basiertes Parsing analog NRW noetig — aber Anchor-Sprache deutlich anders.

Aufwand

~1-2 Tage konzentrierte Arbeit (Reverse-Engineering + Implementierung + Tests).

Bezug

  • Architektur: ADR 0009 (Plenarprotokoll-Parser-Registry)
  • Roadmap: docs/protokoll-parser-roadmap.md
  • Referenz-Implementation: app/protokoll_parsers/nrw.py (38 Tests, 19/19-Fixture-Garantie)
**Stub:** `app/protokoll_parsers/bund.py` (siehe Modul-Docstring fuer Recherche-Findings). ## Status - [x] URL-Pattern recherchiert: `https://dserver.bundestag.de/btp/{wp}/{wp}{n:03}.xml` (auch .pdf) - [x] XML-Format inspiziert (WP20 Sitzung 184) - [x] Recherche-Findings im Stub-Docstring - [ ] Parser-Implementierung - [ ] Tests mit Fixture-Pinning - [ ] Eintrag in `app/protokoll_parsers/__init__.py::PROTOKOLL_PARSERS` - [ ] `PROTO_TARGETS`-Eintrag in `scripts/auto-ingest-protocols.sh` ## Format XML mit `<dbtplenarprotokoll>` als Root, Reden in `<rede>`, Regie-Kommentare in `<kommentar>`. **Kein** `<abstimmung>`-Tag — Vote-Daten muessen aus Text extrahiert werden. ## Empfehlung Fuer namentliche Abstimmungen die strukturierte Excel/XML-Quelle vom Bundestag selbst nutzen statt PDF zu parsen. Fuer Hammelsprung/Handzeichen-Abstimmungen ist Anchor-basiertes Parsing analog NRW noetig — aber Anchor-Sprache deutlich anders. ## Aufwand ~1-2 Tage konzentrierte Arbeit (Reverse-Engineering + Implementierung + Tests). ## Bezug - Architektur: ADR 0009 (Plenarprotokoll-Parser-Registry) - Roadmap: `docs/protokoll-parser-roadmap.md` - Referenz-Implementation: `app/protokoll_parsers/nrw.py` (38 Tests, 19/19-Fixture-Garantie)
Sign in to join this conversation.
No description provided.