Sub-B Ground-Truth: BW URL-Encoding + RP URL-Schema-Drift
Live-Run von Sub-Issue B im Container hat zwei Test-False-Positives in ground_truth.py aufgedeckt, die nichts mit Adapter-Bugs zu tun haben: - BW: PDF-URL kodiert den Underscore als %5F (`17%5F10323.pdf`), nicht als nacktes `_`. pdf_url_substring auf `17%5f10323` aktualisiert. - RP: PDFs werden von `dokumente.landtag.rlp.de` ausgeliefert (nicht von `opal.rlp.de` — das ist nur das Suchfrontend). Substring auf die Drucksachen-Nummer im Pfad (`11250-18`) umgestellt — robust gegen weiteren URL-Schema-Drift. 176 Unit-Tests bleiben grün. Refs: #52, #59 (Sub-B Live-Verifikation) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
parent
b76c08d92e
commit
6ebd7aac7a
@ -87,13 +87,16 @@ GROUND_TRUTH: list[GroundTruth] = [
|
|||||||
frontend_search_url="https://padoka.landtag.sachsen-anhalt.de/portal/",
|
frontend_search_url="https://padoka.landtag.sachsen-anhalt.de/portal/",
|
||||||
),
|
),
|
||||||
# ─── BW (PARLIS / portala-Variante) ─────────────────────────────────
|
# ─── BW (PARLIS / portala-Variante) ─────────────────────────────────
|
||||||
|
# BW kodiert den Underscore in der PDF-URL als %5F (z.B.
|
||||||
|
# "17%5F10323.pdf"), deshalb ist das URL-Substring-Pattern hier
|
||||||
|
# %5F-getrennt — `17_10323` würde nicht matchen.
|
||||||
GroundTruth(
|
GroundTruth(
|
||||||
bundesland="BW",
|
bundesland="BW",
|
||||||
drucksache="17/10323",
|
drucksache="17/10323",
|
||||||
title_substring="Arbeitsbedingungen",
|
title_substring="Arbeitsbedingungen",
|
||||||
expected_fraktionen={"GRÜNE"},
|
expected_fraktionen={"GRÜNE"},
|
||||||
datum="2026-03-16",
|
datum="2026-03-16",
|
||||||
pdf_url_substring="17_10323",
|
pdf_url_substring="17%5f10323",
|
||||||
frontend_search_url="https://parlis.landtag-bw.de/parlis/",
|
frontend_search_url="https://parlis.landtag-bw.de/parlis/",
|
||||||
),
|
),
|
||||||
# ─── HH (ParlDok 8.x) ───────────────────────────────────────────────
|
# ─── HH (ParlDok 8.x) ───────────────────────────────────────────────
|
||||||
@ -137,13 +140,16 @@ GROUND_TRUTH: list[GroundTruth] = [
|
|||||||
frontend_search_url="https://www.parlamentsdokumentation.brandenburg.de/portal/",
|
frontend_search_url="https://www.parlamentsdokumentation.brandenburg.de/portal/",
|
||||||
),
|
),
|
||||||
# ─── RP (OPAL / portala) ────────────────────────────────────────────
|
# ─── RP (OPAL / portala) ────────────────────────────────────────────
|
||||||
|
# PDFs werden vom Landtag von `dokumente.landtag.rlp.de` ausgeliefert,
|
||||||
|
# nicht von `opal.rlp.de` (das ist nur das Suchfrontend). Substring auf
|
||||||
|
# die Drucksache-Nummer im Pfad — robust gegen weitere URL-Drift.
|
||||||
GroundTruth(
|
GroundTruth(
|
||||||
bundesland="RP",
|
bundesland="RP",
|
||||||
drucksache="18/11250",
|
drucksache="18/11250",
|
||||||
title_substring="Bildungschancen",
|
title_substring="Bildungschancen",
|
||||||
expected_fraktionen={"GRÜNE", "SPD", "FDP"},
|
expected_fraktionen={"GRÜNE", "SPD", "FDP"},
|
||||||
datum="2025-01-23",
|
datum="2025-01-23",
|
||||||
pdf_url_substring="opal.rlp.de",
|
pdf_url_substring="11250-18",
|
||||||
frontend_search_url="https://opal.rlp.de/portal/",
|
frontend_search_url="https://opal.rlp.de/portal/",
|
||||||
),
|
),
|
||||||
]
|
]
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user