Die Dokument-OCR basiert jetzt auf generativer KI. Hier erfahren Sie, wie die Basismodelle schnell und präzise liefern.

OCR (optische Zeichenerkennung)

OCR (optische Zeichenerkennung) mit erstklassiger KI von Google Cloud

Extrahieren Sie Text und Daten aus Bildern und Dokumenten, wandeln Sie unstrukturierte Inhalte in strukturierte Daten in ein für Unternehmen geeignetes Format um und gewinnen Sie wertvolle Einsichten.

Binden Sie OCR-Funktionen über APIs in Ihre Anwendungen ein.

Jetzt bereitstellen Demoversion anfordern

Neukunden erhalten bei der Registrierung ein Startguthaben im Wert von 300$, um sich für OCR-Lösungen für das Zusammenfassen von Dokumenten zu bewerben.

Überblick

Was ist OCR?

Die optische Zeichenerkennung (Optical Character Recognition, OCR) ist eine grundlegende Technologie für die Umwandlung von typisiertem, handschriftlichem oder gedrucktem Text aus Bildern in maschinencodierten Text.

Welche Arten von OCR bietet Google Cloud?

Google Cloud bietet zwei Arten von OCR: OCR für Dokumente und OCR für Bilder und Videos.

Document AI ist eine für die Dokumentverarbeitung optimierte Plattform zum Verstehen von Dokumenten. Sein Custom Extractor basiert auf GenAI, die sowohl generische als auch fachspezifische Dokumente mit höherer Genauigkeit und schneller verarbeitet, ohne einen speziellen Prozessor auswählen zu müssen.

Cloud Vision wird häufig verwendet, um Text, Handschrift und eine Vielzahl von Objekten aus Bildern und Videos zu erkennen.

Wie funktioniert OCR in Google Cloud?

Google Cloud unterstützt OCR mit branchenführender KI. Dies geht über die herkömmliche Texterkennung hinaus, indem Daten analysiert, organisiert und angereichert werden, um letztendlich geschäftsfähige Erkenntnisse zu gewinnen.

Sie haben die Flexibilität, die OCR-Tools als einheitliche Suite für optimierte Effizienz zu verwenden (z. B. Document AI) oder einfach die entsprechenden APIs, die direkt in der Google Cloud Console verfügbar sind, um OCR-Funktionen in Ihre Anwendungen einzubinden.

VIDEO

Was ist Document AI?

4:36

Wie KI-Produkte von Google Cloud und OCR zusammenarbeiten

Alle oben genannten OCR-Lösungen bieten Zugriff auf vortrainierte ML-Modelle, die Sie direkt über eine API bereitstellen können. Durch ein Aufbautraining können Sie die Genauigkeit für Ihre spezifischen Anforderungen verbessern.

Sie können auch eigene benutzerdefinierte Modelle mit AutoML trainieren. Dazu sind keine Kenntnisse im Bereich maschinelles Lernen erforderlich.

Informationen zum Erstellen benutzerdefinierter ML-Modelle finden Sie in der AutoML-Dokumentation.

VIDEO

Wann und wie ML-Modelle mit AutoML erstellt und trainiert werden

2:11

Welche OCR-Lösung ist die richtige für mich?

Wenn Sie ein Dokument analysieren oder eine automatisierte Pipeline zur Dokumentverarbeitung erstellen möchten, verwenden SieDocument AI – Sie können damit den gesamten Workflow an einem Ort verwalten – vom Verständnis der Dokumente bis hin zum Durchsuchen, Speichern, Steuern und Verwalten der Dokumente neben extrahierten Daten.

Wenn Sie Bilder analysieren und verarbeiten möchten, sollten Sie Cloud Vision zusammen mit anderen Google Cloud-Produkten verwenden. Weitere Informationen und Kurzanleitungen finden Sie im Abschnitt „Gängige Einsatzmöglichkeiten“.

Beide APIs können kostenlos mit einem Google Cloud-Konto getestet werden.

OCR-Angebote vergleichen

OCR-Angebot	Optimal für	Wichtige Features
Cloud Vision API		Allgemeine Anwendungsfälle für die Textextraktion, die eine niedrige Latenz und hohe Kapazität erfordern.	Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch
Document AI	Enterprise Document OCR	Text aus Dokumenten digitalisieren (PDFs, gescannte Dokumente als Bilder oder Microsoft DocX-Dateien)	Extrahiert Text in über 200 Sprachen und in 50 handschriftlichen Sprachen. Add-ons zur Erkennung von mathematischen Formeln, Stilen usw.
	Document AI Workbench	Dokumente mit generativer KI (Basismodelle) extrahieren, klassifizieren und aufteilen	Custom Extractor: Verwendet Basismodelle, um schnell Parser ohne umfangreiches Datenlabeling oder Training zu erstellen. Benutzerdefinierter Klassifikator und Dokument-Splitter für eine effiziente Verarbeitung.
	Vortrainierte Modelle	Extraktion von Text und Feldern aus domainspezifischen Dokumenten	Extraktion und Digitalisierung von Texten für eine Vielzahl von Beschaffungs-, Darlehens-, Identitäts- und Vertragsdokumenten.

Cloud Vision API

Optimal für

Wichtige Features

Allgemeine Anwendungsfälle für die Textextraktion, die eine niedrige Latenz und hohe Kapazität erfordern.

Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch

Document AI

Optimal für

Enterprise Document OCR

Wichtige Features

Text aus Dokumenten digitalisieren (PDFs, gescannte Dokumente als Bilder oder Microsoft DocX-Dateien)

Extrahiert Text in über 200 Sprachen und in 50 handschriftlichen Sprachen.

Add-ons zur Erkennung von mathematischen Formeln, Stilen usw.

Optimal für

Document AI Workbench

Wichtige Features

Dokumente mit generativer KI (Basismodelle) extrahieren, klassifizieren und aufteilen

Custom Extractor: Verwendet Basismodelle, um schnell Parser ohne umfangreiches Datenlabeling oder Training zu erstellen.

Benutzerdefinierter Klassifikator und Dokument-Splitter für eine effiziente Verarbeitung.

Optimal für

Vortrainierte Modelle

Wichtige Features

Extraktion von Text und Feldern aus domainspezifischen Dokumenten

Extraktion und Digitalisierung von Texten für eine Vielzahl von Beschaffungs-, Darlehens-, Identitäts- und Vertragsdokumenten.

Funktionsweise

Verwenden Sie Document AI, um Dokumente zu verstehen und zu verarbeiten.

Für Bilder empfehlen wir Cloud Vision.

Beide bieten Zugriff auf vortrainierte ML-Modelle, die Sie unverändert über APIs oder für ein Aufbautraining bereitstellen können. Außerdem können Sie mit AutoML Ihre eigenen benutzerdefinierten Modelle trainieren – ganz ohne ML-Fachwissen.

Die ersten 1.000 Einheiten pro Monat sind bei Verwendung von Cloud Vision oder Document OCR kostenlos. Probieren Sie es mit einem einfachen API-Aufruf aus.

Cloud Vision API ausprobieren

Bild, das das Zusammenspiel von Cloud-Produkten zeigt

Bilder in Cloud Vision erkennen und klassifizieren

Demo

Erleben Sie die Dokument-OCR in Aktion mit Ihren eigenen Dokumenten

Testen Sie die Document AI API mit einem einfachen Drag-and-drop.

Gängige Einsatzmöglichkeiten

Text mit Gen AI aus Dokumenten extrahieren

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert generische und fachspezifische Texte und Daten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.

Document AI API bereitstellen

Zwei Referenten neben dem Namen der Veranstaltung: So können Sie Ihr Unternehmen mit OCR und generativer AI voranbringen

25:47

Anleitungen

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert generische und fachspezifische Texte und Daten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.

Document AI API bereitstellen

25:47

Kundenbeispiele

Mr. Cooper beschleunigt mit KI-Produkten von Google die Hypothekenverarbeitung

Mr. Cooper ist einer der größten Hauskreditdienstleister der USA, der sich auf die Bereitstellung einer Vielzahl von Dienstleistungs- und Kreditdiensten, Dienstleistungen und Technologien für Hauseigentümer spezialisiert hat.

Das Unternehmen hat eine containerbasierte Pipeline für die Dokumentverarbeitung mit einer modularen Architektur auf dem OCR-Technologie-Stack von Google erstellt und folgende Ergebnisse erzielt:

– Mehr als 95 % Genauigkeit für wichtige Dokumente.

– Spitzendurchsatz von 4.000 Seiten/Min., durchschnittlicher Durchsatz von 2.000 Seiten/Min.

– Effizientere Dokumentenverarbeitung um 400 %

Vollständige Fallstudie für technische Details lesen

Grafik: Architektur der Pipeline für die Dokumentenverarbeitung durch Mr. Cooper

Eine End-to-End-Dokumentlösung erstellen

Pipeline für Dokumentverarbeitung und -verständnis erstellen

Document AI basiert auf GenAI und bietet eine sehr präzise Extraktion von Daten aus Dokumenten unterschiedlicher Layouts und Qualität. Sie können es mit Cloud Storage verbinden, um für Ihre unstrukturierten Dokumente unternehmensgerechte Compliance zu gewährleisten. Mit BigQuery können Sie die extrahierten Daten beliebig im Batch verarbeiten und analysieren. Mit Looker können Sie ganz einfach Visualisierungen basierend auf Ihren BigQuery-Tabellen erstellen. Mit Vertex AI Search können Sie Ihre Dokumente in Cloud Storage konversationell oder traditionell abfragen und durchsuchen.

Document AI API bereitstellen

Referenzarchitektur einer End-to-End-Dokumentlösung mit mehreren Google Cloud-Produkten

Praxisorientiertes Lab: End-to-End-Pipeline zur Datenerfassung mit Document AI und Cloud Functions erstellen

Die Einrichtung der gesamten Pipeline dauert 60–90 Minuten. Für den Document AI-Teil benötigen Sie 10 Minuten.

Anleitungen

Pipeline für Dokumentverarbeitung und -verständnis erstellen

Document AI basiert auf GenAI und bietet eine sehr präzise Extraktion von Daten aus Dokumenten unterschiedlicher Layouts und Qualität. Sie können es mit Cloud Storage verbinden, um für Ihre unstrukturierten Dokumente unternehmensgerechte Compliance zu gewährleisten. Mit BigQuery können Sie die extrahierten Daten beliebig im Batch verarbeiten und analysieren. Mit Looker können Sie ganz einfach Visualisierungen basierend auf Ihren BigQuery-Tabellen erstellen. Mit Vertex AI Search können Sie Ihre Dokumente in Cloud Storage konversationell oder traditionell abfragen und durchsuchen.

Document AI API bereitstellen

Praxisorientiertes Lab: End-to-End-Pipeline zur Datenerfassung mit Document AI und Cloud Functions erstellen

Die Einrichtung der gesamten Pipeline dauert 60–90 Minuten. Für den Document AI-Teil benötigen Sie 10 Minuten.

Tagging von Bildern, Verarbeitung und Suche

Bilder mit der Cloud Vision API und AutoML taggen und verarbeiten

Das Taggen von Bildern wird auch als Bildbeschriftung bezeichnet.

Die Cloud Vision API kann allgemeine Objekte, Sehenswürdigkeiten, Orte, Logos, Aktivitäten, Tierarten, Produkte und mehr in einem Bild identifizieren und mit Labels versehen. Sobald die Bilder mit den erkannten Labels getaggt sind, sind die Bildersuche, die Verarbeitung und die Verwaltung automatisiert und einfacher.

Wenn Sie gezielte benutzerdefinierte Labels benötigen, verwenden Sie Cloud AutoML, um ein benutzerdefiniertes ML-Modell zu trainieren.

Um Google OCR-Technologien lokal zu verwenden, nutzen Sie OCR On-Prem, verfügbar im Cloud Marketplace.

Cloud Vision API bereitstellen

Architekturdiagramm, das zeigt, wie AutoML und Cloud Vision AI zusammen mit anderen Google Cloud-Produkten zur Analyse von Bildern arbeiten

Anleitungen

Bilder mit der Cloud Vision API und AutoML taggen und verarbeiten

Das Taggen von Bildern wird auch als Bildbeschriftung bezeichnet.

Die Cloud Vision API kann allgemeine Objekte, Sehenswürdigkeiten, Orte, Logos, Aktivitäten, Tierarten, Produkte und mehr in einem Bild identifizieren und mit Labels versehen. Sobald die Bilder mit den erkannten Labels getaggt sind, sind die Bildersuche, die Verarbeitung und die Verwaltung automatisiert und einfacher.

Wenn Sie gezielte benutzerdefinierte Labels benötigen, verwenden Sie Cloud AutoML, um ein benutzerdefiniertes ML-Modell zu trainieren.

Um Google OCR-Technologien lokal zu verwenden, nutzen Sie OCR On-Prem, verfügbar im Cloud Marketplace.

Cloud Vision API bereitstellen

Weitere Ressourcen

Preisbeispiel

Für eine einfache Pipeline zur Bildverarbeitung, die Labels wie rechts dargestellt erkennt, würden Ihre monatlichen Kosten 27,36 USD betragen.

Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.

Die ersten 1.000 Einheiten pro Monat sind kostenlos.

Wenden Sie sich wegen der Kosten für eine komplexere Einrichtung an uns.

Architektur für das Taggen von Bildern, die Verarbeitung und die Suche

Kundenbeispiele

AutoML hilft Wissenschaftlern bei der Vorhersage und Verfolgung von Küstenveränderungen

Forscher an der Texas A&M University konnten mit Cloud AutoML ein Dataset-Modell mit mehreren Labels mit 10.458 Bildern der Küste in 24 Rechenstunden benutzerdefiniert trainieren. Mit dem Modell konnten die Forscher die Küstenveränderungen mit einer durchschnittlichen Genauigkeit von 95,2 % vorhersagen und verfolgen.

AutoML bietet zusätzliche Flexibilität beim Trainieren erweiterter Modelle anhand der Trainingsbilder. Das Team kann die Daten dann über eine intuitive Benutzeroberfläche prüfen und die Ergebnisse analysieren und eine API für die skalierbare Bereitstellung bereitstellen.

Vollständige Fallstudie für technische Details lesen

Bild mit ML-Trainingsergebnis mit mehreren Labels

Text aus Bildern extrahieren

Mit der Cloud Vision API Text aus Bildern extrahieren

Mit der Cloud Vision API können Sie Text und Handschrift aus Bildern in verschiedenen Sprachen erkennen und extrahieren. Außerdem bietet sie eine multiregionale Unterstützung , mit der Sie Datenspeicher auf Kontinentebene und OCR-Verarbeitung angeben können.

Sie können sofort Ergebnisse für eine kleine Anzahl von Bildern (bis zu 16 pro Anfrage) erhalten oder asynchron eine Batchverarbeitung für eine größere Anzahl von Bildern (bis zu 2.000 pro Anfrage) für ein späteres Resultat durchführen.

Cloud Vision API bereitstellen

Anleitungen

Mit der Cloud Vision API Text aus Bildern extrahieren

Mit der Cloud Vision API können Sie Text und Handschrift aus Bildern in verschiedenen Sprachen erkennen und extrahieren. Außerdem bietet sie eine multiregionale Unterstützung , mit der Sie Datenspeicher auf Kontinentebene und OCR-Verarbeitung angeben können.

Sie können sofort Ergebnisse für eine kleine Anzahl von Bildern (bis zu 16 pro Anfrage) erhalten oder asynchron eine Batchverarbeitung für eine größere Anzahl von Bildern (bis zu 2.000 pro Anfrage) für ein späteres Resultat durchführen.

Cloud Vision API bereitstellen

Weitere Ressourcen

Preisbeispiel

Zum Ausführen einer einfachen Verarbeitungspipeline, die Text aus Bildern extrahiert, wie in der rechten Abbildung gezeigt, betragen Ihre monatlichen Kosten 27,36 USD.

Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.

Die ersten 1.000 Einheiten pro Monat sind kostenlos.

Kontaktieren Sie uns bei einer etwas komplexeren Einrichtung.

Preise

Wie viel kostet mein Anwendungsfall?	Monatliche Kosten für einen Anwendungsfall mit den von Ihnen benötigten Produkten und wichtigen Annahmen zur Nutzung verstehen.
Anwendungsfall	Verwendete Produkte	Annahmen zur Nutzung	Geschätzte monatliche Kosten (USD)
Tagging von Bildern, Verarbeitung und Suche	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 API-Aufrufe für die Cloud Vision-Labelerkennung pro Monat 2. 100 GiB Speicher pro Monat 3. Eine CPU mit 1,25 GiB 4. Täglich 4 GiB über Pub/Sub veröffentlicht Berechnungsdetails im Taschenrechner ansehen	27,36 $
Text und Informationen aus Dokumenten extrahieren	Document AI Cloud Storage BigQuery Cloud Functions	1. 1.000 Formularparser-API-Aufrufe für Document AI pro Monat 2. 100 GiB Speicher pro Monat 3. 1 TiB monatliche Abfragen 4. RAM: 512 MB, CPU: 800 MHz Berechnungsdetails im Taschenrechner ansehen	71,87 $
Text aus Bildern extrahieren	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 API-Aufrufe für die Cloud Vision-OCR pro Monat 2. 100 GiB Speicher pro Monat 3. Eine CPU mit 1,25 GiB 4. Täglich 4 GiB über Pub/Sub veröffentlicht Berechnungsdetails im Taschenrechner ansehen	27,36 $

Hier finden Sie die vollständigen Preise pro Einheit für Document AI, Vision API und AutoML.

Wie viel kostet mein Anwendungsfall?

Monatliche Kosten für einen Anwendungsfall mit den von Ihnen benötigten Produkten und wichtigen Annahmen zur Nutzung verstehen.

Tagging von Bildern, Verarbeitung und Suche

Verwendete Produkte

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Annahmen zur Nutzung

1. 15.000 API-Aufrufe für die Cloud Vision-Labelerkennung pro Monat

2. 100 GiB Speicher pro Monat

3. Eine CPU mit 1,25 GiB

4. Täglich 4 GiB über Pub/Sub veröffentlicht

Berechnungsdetails im Taschenrechner ansehen

Geschätzte monatliche Kosten (USD)

27,36 $

Text und Informationen aus Dokumenten extrahieren

Verwendete Produkte

Document AI

Cloud Storage

BigQuery

Cloud Functions

Annahmen zur Nutzung

1. 1.000 Formularparser-API-Aufrufe für Document AI pro Monat

2. 100 GiB Speicher pro Monat

3. 1 TiB monatliche Abfragen

4. RAM: 512 MB, CPU: 800 MHz

Berechnungsdetails im Taschenrechner ansehen

Geschätzte monatliche Kosten (USD)

71,87 $

Text aus Bildern extrahieren

Verwendete Produkte

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Annahmen zur Nutzung

1. 15.000 API-Aufrufe für die Cloud Vision-OCR pro Monat

2. 100 GiB Speicher pro Monat

3. Eine CPU mit 1,25 GiB

4. Täglich 4 GiB über Pub/Sub veröffentlicht

Berechnungsdetails im Taschenrechner ansehen

Geschätzte monatliche Kosten (USD)

27,36 $

Hier finden Sie die vollständigen Preise pro Einheit für Document AI, Vision API und AutoML.

Preisrechner

Schätzen Sie die Kosten Ihres Projekts, indem Sie alle benötigten Tools an einem Ort abrufen.

Kosten abschätzen

Individuelles Angebot

Wenden Sie sich an unser Vertriebsteam, um ein individuelles Angebot für die besonderen Anforderungen Ihrer Organisation zu erhalten.

Angebot anfordern

Proof of Concept starten

Neukunden erhalten ein Guthaben von bis zu 300 $, um Google Cloud-Produkte auszuprobieren

Jetzt kostenlos starten

Hier erfahren Sie, wie Sie eine Pipeline zur Dokumentverarbeitung mit der KI von Google automatisieren

Video ansehen

OCR (optische Zeichenerkennung)