OCR-Textsuche

Kamera-Scan, Indexierung, Tipps und Fehlerbehebung

Mit der OCR-Funktion kannst du eine Buchseite fotografieren oder einen Screenshot laden, um die entsprechende Stelle im Hörbuch zu finden.

So funktioniert's

Das Vision Framework erkennt den Text im Bild — vollständig on-device, ohne Internetverbindung.

Der erkannte Text wird mit dem Transkriptions-Index des Hörbuchs abgeglichen (Fuzzy-Matching).

Bei einem Treffer springt der Player zur erkannten Stelle. Du siehst eine Vorschau mit Konfidenzwert.

Eingabemöglichkeiten

Kamera-Scan: Fotografiere eine Buchseite direkt mit der Kamera.

Foto-Bibliothek: Wähle einen Screenshot oder ein Foto aus deiner Galerie.

Text-Eingabe: Gib Text manuell ein oder füge ihn aus der Zwischenablage ein.

Indexierung

Damit die OCR-Suche funktioniert, muss das Hörbuch einmalig transkribiert und indexiert werden. Dies geschieht automatisch im Hintergrund — auch wenn die App nicht aktiv ist. Jedes Kapitel wird einzeln verarbeitet, das aktuell gehörte Kapitel hat Priorität.

Den Indexierungsfortschritt siehst du in der Bibliothek (z.B. «12/24 Kapitel»). Ein fertig indexiertes Buch wird via iCloud mit deinen anderen Geräten geteilt.

Transkriptions-Engine

In den Einstellungen kannst du zwischen zwei Engines wählen:

Apple Speech Framework: Integrierte Spracherkennung, kostenlos, on-device.

WhisperKit: Lokales Whisper-Modell für höhere Genauigkeit, läuft auf der Apple Neural Engine.

Tipps für beste Ergebnisse

Achte auf gute Beleuchtung beim Kamera-Scan.

Halte die Kamera ruhig und parallel zur Seite.

Gedruckter Text funktioniert besser als Handschrift.

Stelle sicher, dass das Hörbuch vollständig indexiert ist.