protokoll-parser: HE (Hessen) #154

Open
opened 2026-04-28 23:07:52 +02:00 by tobias · 0 comments
Owner

Stub: app/protokoll_parsers/he.py (siehe Modul-Docstring fuer Recherche-Findings).

Status

  • Stub-Modul angelegt (raised NotImplementedError)
  • Recherche-Findings im Docstring
  • URL-Discovery komplettieren
  • Sample-Protokoll besorgen + Anchor-Phrasen identifizieren
  • Parser-Implementierung
  • Tests mit Fixture-Pinning analog NRW
  • Eintrag in app/protokoll_parsers/__init__.py::PROTOKOLL_PARSERS
  • PROTO_TARGETS-Eintrag in scripts/auto-ingest-protocols.sh

Recherche-Stand

Feld Wert
Doku-System portala
Base-URL https://starweb.hessen.de/portal
Familie BB/RP-Familie
Format HTML bevorzugt; ggf. PDF als Fallback

URL-Discovery

Plenum-Protokolle wahrscheinlich als HTML mit semantischen Tags pro Beschluss — wenn HTML zugaenglich, EINFACHER als PDF-Parser.

Aufwand

~1-3 Tage konzentrierte Arbeit (Discovery + Reverse-Engineering + Implementierung + Tests).

Bezug

  • Architektur: ADR 0009 (Plenarprotokoll-Parser-Registry)
  • Roadmap: docs/protokoll-parser-roadmap.md
  • Referenz-Implementation: app/protokoll_parsers/nrw.py (38 Tests, 19/19-Fixture-Garantie)
  • Phase-1-Stand: 168 Protokolle, 2342 Plenum-Votes (NRW WP17+WP18)
**Stub:** `app/protokoll_parsers/he.py` (siehe Modul-Docstring fuer Recherche-Findings). ## Status - [x] Stub-Modul angelegt (raised NotImplementedError) - [x] Recherche-Findings im Docstring - [ ] URL-Discovery komplettieren - [ ] Sample-Protokoll besorgen + Anchor-Phrasen identifizieren - [ ] Parser-Implementierung - [ ] Tests mit Fixture-Pinning analog NRW - [ ] Eintrag in `app/protokoll_parsers/__init__.py::PROTOKOLL_PARSERS` - [ ] `PROTO_TARGETS`-Eintrag in `scripts/auto-ingest-protocols.sh` ## Recherche-Stand | Feld | Wert | |---|---| | Doku-System | portala | | Base-URL | https://starweb.hessen.de/portal | | Familie | BB/RP-Familie | | Format | HTML bevorzugt; ggf. PDF als Fallback | ## URL-Discovery Plenum-Protokolle wahrscheinlich als HTML mit semantischen Tags pro Beschluss — wenn HTML zugaenglich, EINFACHER als PDF-Parser. ## Aufwand ~1-3 Tage konzentrierte Arbeit (Discovery + Reverse-Engineering + Implementierung + Tests). ## Bezug - Architektur: ADR 0009 (Plenarprotokoll-Parser-Registry) - Roadmap: `docs/protokoll-parser-roadmap.md` - Referenz-Implementation: `app/protokoll_parsers/nrw.py` (38 Tests, 19/19-Fixture-Garantie) - Phase-1-Stand: 168 Protokolle, 2342 Plenum-Votes (NRW WP17+WP18)
Sign in to join this conversation.
No description provided.