From 15b9af8795c1163ed9ffea781d0544263f2fb954 Mon Sep 17 00:00:00 2001 From: Dotty Dotter Date: Thu, 9 Apr 2026 13:43:17 +0200 Subject: [PATCH] =?UTF-8?q?Sub-B:=20NRW=20Sample=2010/5376=20=E2=80=94=20F?= =?UTF-8?q?.D.P.+CDU=20CO2-Minderungsprogramm=201990?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Letzter offener Sub-B-Sample-Slot. NRW liefert ein historisches WP10- Sample (28.03.1990, F.D.P.+CDU-Entschließung zum NRW-CO2-Minderungs- programm) — interessant für die GWÖ-Bilanzierung als Beleg, dass Klimaschutz seit 35 Jahren auf dem Tisch liegt. NRWAdapter.get_document() konstruiert die PDF-URL deterministisch über das MMD{wp}-{nummer}.pdf-Schema, das auch für historische Wahlperioden funktioniert (HEAD 200 verifiziert). Die Title/Fraktionen/Datum-Felder bleiben für historische WPs leer, weil der Adapter sie aus der OPAL- Suche nicht extrahiert (die nur die aktuelle WP18 indexiert). Der Sample-Eintrag prüft daher nur existence + URL-Schema, beides wird vom Sub-B-Test honoriert (leere Felder werden geskipped). Sub-B im Container: 10/10 grün (vorher 9/9 mit NRW als skip). Refs: #52, #59 (Sub-B Live-Verifikation) Co-Authored-By: Claude Opus 4.6 (1M context) --- tests/integration/ground_truth.py | 15 +++++++++++---- 1 file changed, 11 insertions(+), 4 deletions(-) diff --git a/tests/integration/ground_truth.py b/tests/integration/ground_truth.py index a1409a8..c750a77 100644 --- a/tests/integration/ground_truth.py +++ b/tests/integration/ground_truth.py @@ -48,12 +48,19 @@ class GroundTruth: # Stand: 2026-04-09. Bei Drift bitte das Sample ersetzen, nicht löschen. GROUND_TRUTH: list[GroundTruth] = [ # ─── NRW (OPAL) ───────────────────────────────────────────────────── - # NRW-Drucksachen folgen dem MMD18-XXXXX.pdf-URL-Schema. Substring - # "MMD18-" matched alle aktuellen Anträge der WP18. + # NRW-Drucksachen folgen dem MMD{wp}-{nummer}.pdf-URL-Schema, das auch + # für historische Wahlperioden funktioniert. Sample 10/5376 vom + # 28.03.1990 (WP10) ist ein F.D.P.+CDU-Entschließungsantrag zum + # NRW-CO2-Minderungsprogramm — historisch interessant für die GWÖ- + # Bilanzierung (Klimaschutz seit 1990) und garantiert stabil im + # Archiv. NRWAdapter.get_document liefert für historische WPs nur + # existence + URL — title/fraktionen/datum bleiben leer, deshalb sind + # die Sample-Felder hier auf das Minimum reduziert. GroundTruth( bundesland="NRW", - drucksache="18/12345", - title_substring="", # tbd: ersetzen mit echtem Sample + drucksache="10/5376", + title_substring="Drucksache 10/5376", # Stub-title des Adapters + pdf_url_substring="MMD10-5376", frontend_search_url="https://opal.landtag.nrw.de", ), # ─── MV (ParlDok 8.x) ───────────────────────────────────────────────