Zitat-Highlighting in PDFs (gelbe Markierung im Wahlprogramm) #92
Labels
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: tobias/gwoe-antragspruefer#92
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Aus CLAUDE.md
Offene TODOs. Wenn der GWÖ-Report auf eine Wahlprogramm-Seite verlinkt (/static/referenzen/spd-mv-2021.pdf#page=20), öffnet der Browser die Seite — aber das relevante Zitat ist nicht visuell hervorgehoben. Der Leser muss selbst suchen.Vorgehen
Beim Indexieren in
embeddings.index_programmden Chunk-Text + Page-Number mit Bounding-Box aus der PDF speichern (PyMuPDF kann das viapage.search_for(text)). Beim Report-Render eine annotierte Variante des PDFs erzeugen, die nur die relevante Passage gelb unterlegt — entweder als On-the-fly-PDF-Bearbeitung oder per HTML-Overlay (PDF.js).Trade-off: PDF-Annotation ist aufwendig (~150 Wahlprogramm-PDFs × N Zitate). Alternative: HTML-Highlight-Overlay über PDF.js mit den Bounding-Boxes als JSON-Sidecar.
Akzeptanzkriterien