From 67092d05b56fd32cc9d35acd8be61a7f5a793111 Mon Sep 17 00:00:00 2001 From: Dotty Dotter Date: Wed, 29 Apr 2026 01:01:52 +0200 Subject: [PATCH] feat(#155): HH-Index-Scrape im Auto-Ingest-Cron MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Hamburg hat keine vorhersagbare URL-Pattern (Blob-IDs + Hashes pro PDF). Stattdessen: HH-Branch im Cron scraped die Protokoll-Liste auf hamburgische-buergerschaft.de und ingestet jedes gefundene PDF, das noch nicht in plenum_vote_results steht (idempotent). Cron-Lauf morgens 06:30 zieht damit auch HH-Sitzungen automatisch nach, sobald die Buergerschaft sie veroeffentlicht (typisch Tag nach der Sitzung). URL-Discovery-Pattern fuer Phase-2-BL mit aehnlich nicht-vorhersagbaren URLs (z.B. SN, ggf. NI) — kann diese Index-Scrape-Logik wiederverwenden. --- scripts/auto-ingest-protocols.sh | 62 ++++++++++++++++++++++++++++++++ 1 file changed, 62 insertions(+) diff --git a/scripts/auto-ingest-protocols.sh b/scripts/auto-ingest-protocols.sh index d672156..745d33f 100755 --- a/scripts/auto-ingest-protocols.sh +++ b/scripts/auto-ingest-protocols.sh @@ -33,6 +33,68 @@ PROTO_TARGETS=( echo "=== auto-ingest-protocols $(date -Iseconds) ===" +# ─── HH: Index-Page-Scrape statt URL-Pattern ────────────────────────── +# Hamburg hat keine vorhersagbare URL-Pattern (Blob-IDs + Hashes). +# Stattdessen: Index-Seite scrapen, jedes gefundene PDF einzeln ingesten. +echo "--- HH WP23 (Index-Scrape) ---" +docker exec "$CONTAINER" python <