OCR (optische Zeichenerkennung)

OCR (optische Zeichenerkennung) mit erstklassiger KI von Google Cloud

Extrahieren Sie Text und Daten aus Bildern und Dokumenten, wandeln Sie unstrukturierte Inhalte in strukturierte Daten in ein für Unternehmen geeignetes Format um und gewinnen Sie wertvolle Einsichten.

Binden Sie OCR-Funktionen über APIs in Ihre Anwendungen ein.

Neukunden erhalten bei der Registrierung ein Startguthaben im Wert von 300$, um sich für OCR-Lösungen für das Zusammenfassen von Dokumenten zu bewerben.

Überblick

Was ist OCR?

Die optische Zeichenerkennung (Optical Character Recognition, OCR) ist eine grundlegende Technologie für die Umwandlung von typisiertem, handschriftlichem oder gedrucktem Text aus Bildern in maschinencodierten Text. 

Welche Arten von OCR bietet Google Cloud?

Google Cloud bietet zwei Arten von OCR: OCR für Dokumente und OCR für Bilder und Videos.

Document AI ist eine für die Dokumentverarbeitung optimierte Plattform zum Verstehen von Dokumenten. Sein Custom Extractor basiert auf GenAI, die sowohl generische als auch fachspezifische Dokumente mit höherer Genauigkeit und schneller verarbeitet, ohne einen speziellen Prozessor auswählen zu müssen. 

Cloud Vision wird häufig verwendet, um Text, Handschrift und eine Vielzahl von Objekten aus Bildern und Videos zu erkennen.

Wie funktioniert OCR in Google Cloud?

Google Cloud unterstützt OCR mit branchenführender KI. Dies geht über die herkömmliche Texterkennung hinaus, indem Daten analysiert, organisiert und angereichert werden, um letztendlich geschäftsfähige Erkenntnisse zu gewinnen. 

Sie haben die Flexibilität, die OCR-Tools als einheitliche Suite für optimierte Effizienz zu verwenden (z. B. Document AI) oder einfach die entsprechenden APIs, die direkt in der Google Cloud Console verfügbar sind, um OCR-Funktionen in Ihre Anwendungen einzubinden.

Wie KI-Produkte von Google Cloud und OCR zusammenarbeiten

Alle oben genannten OCR-Lösungen bieten Zugriff auf vortrainierte ML-Modelle, die Sie direkt über eine API bereitstellen können. Durch ein Aufbautraining können Sie die Genauigkeit für Ihre spezifischen Anforderungen verbessern. 

Sie können auch eigene benutzerdefinierte Modelle mit AutoML trainieren. Dazu sind keine Kenntnisse im Bereich maschinelles Lernen erforderlich. 

Informationen zum Erstellen benutzerdefinierter ML-Modelle finden Sie in der AutoML-Dokumentation.

Welche OCR-Lösung ist die richtige für mich?

Wenn Sie ein Dokument analysieren oder eine automatisierte Pipeline zur Dokumentverarbeitung erstellen möchten, verwenden SieDocument AI – Sie können damit den gesamten Workflow an einem Ort verwalten – vom Verständnis der Dokumente bis hin zum Durchsuchen, Speichern, Steuern und Verwalten der Dokumente neben extrahierten Daten.

Wenn Sie Bilder analysieren und verarbeiten möchten, sollten Sie Cloud Vision zusammen mit anderen Google Cloud-Produkten verwenden. Weitere Informationen und Kurzanleitungen finden Sie im Abschnitt „Gängige Einsatzmöglichkeiten“.

Beide APIs können kostenlos mit einem Google Cloud-Konto getestet werden.

OCR-Angebote vergleichen

OCR-AngebotOptimal fürWichtige Features

Allgemeine Anwendungsfälle für die Textextraktion, die eine niedrige Latenz und hohe Kapazität erfordern.

Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch

Enterprise Document OCR

Text aus Dokumenten digitalisieren (PDFs, gescannte Dokumente als Bilder oder Microsoft DocX-Dateien)

Extrahiert Text in über 200 Sprachen und in 50 handschriftlichen Sprachen.

Add-ons zur Erkennung von mathematischen Formeln, Stilen usw.



Document AI Workbench

Dokumente mit generativer KI (Basismodelle) extrahieren, klassifizieren und aufteilen

Custom Extractor: Verwendet Basismodelle, um schnell Parser ohne umfangreiches Datenlabeling oder Training zu erstellen.

Benutzerdefinierter Klassifikator und Dokument-Splitter für eine effiziente Verarbeitung.

Vortrainierte Modelle

Extraktion von Text und Feldern aus domainspezifischen Dokumenten

Extraktion und Digitalisierung von Texten für eine Vielzahl von Beschaffungs-, Darlehens-, Identitäts- und Vertragsdokumenten.

Optimal für

Wichtige Features

Allgemeine Anwendungsfälle für die Textextraktion, die eine niedrige Latenz und hohe Kapazität erfordern.

Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch

Optimal für

Enterprise Document OCR

Wichtige Features

Text aus Dokumenten digitalisieren (PDFs, gescannte Dokumente als Bilder oder Microsoft DocX-Dateien)

Extrahiert Text in über 200 Sprachen und in 50 handschriftlichen Sprachen.

Add-ons zur Erkennung von mathematischen Formeln, Stilen usw.



Optimal für

Document AI Workbench

Wichtige Features

Dokumente mit generativer KI (Basismodelle) extrahieren, klassifizieren und aufteilen

Custom Extractor: Verwendet Basismodelle, um schnell Parser ohne umfangreiches Datenlabeling oder Training zu erstellen.

Benutzerdefinierter Klassifikator und Dokument-Splitter für eine effiziente Verarbeitung.

Optimal für

Vortrainierte Modelle

Wichtige Features

Extraktion von Text und Feldern aus domainspezifischen Dokumenten

Extraktion und Digitalisierung von Texten für eine Vielzahl von Beschaffungs-, Darlehens-, Identitäts- und Vertragsdokumenten.

Funktionsweise

Verwenden Sie Document AI, um Dokumente zu verstehen und zu verarbeiten.

Für Bilder empfehlen wir Cloud Vision.

Beide bieten Zugriff auf vortrainierte ML-Modelle, die Sie unverändert über APIs oder für ein Aufbautraining bereitstellen können. Außerdem können Sie mit AutoML Ihre eigenen benutzerdefinierten Modelle trainieren – ganz ohne ML-Fachwissen. 

Die ersten 1.000 Einheiten pro Monat sind bei Verwendung von Cloud Vision oder Document OCR kostenlos. Probieren Sie es mit einem einfachen API-Aufruf aus.

Bild, das das Zusammenspiel von Cloud-Produkten zeigt
Bilder in Cloud Vision erkennen und klassifizieren

Demo

Erleben Sie die Dokument-OCR in Aktion mit Ihren eigenen Dokumenten

Testen Sie die Document AI API mit einem einfachen Drag-and-drop.

Gängige Einsatzmöglichkeiten

Text mit Gen AI aus Dokumenten extrahieren

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert generische und fachspezifische Texte und Daten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.


Document AI API bereitstellen

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert generische und fachspezifische Texte und Daten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.


Document AI API bereitstellen

Mr. Cooper beschleunigt mit KI-Produkten von Google die Hypothekenverarbeitung

Mr. Cooper ist einer der größten Hauskreditdienstleister der USA, der sich auf die Bereitstellung einer Vielzahl von Dienstleistungs- und Kreditdiensten, Dienstleistungen und Technologien für Hauseigentümer spezialisiert hat.

Das Unternehmen hat eine containerbasierte Pipeline für die Dokumentverarbeitung mit einer modularen Architektur auf dem OCR-Technologie-Stack von Google erstellt und folgende Ergebnisse erzielt:

– Mehr als 95 % Genauigkeit für wichtige Dokumente.

– Spitzendurchsatz von 4.000 Seiten/Min., durchschnittlicher Durchsatz von 2.000 Seiten/Min.

– Effizientere Dokumentenverarbeitung um 400 %

Vollständige Fallstudie für technische Details lesen
Grafik: Architektur der Pipeline für die Dokumentenverarbeitung durch Mr. Cooper

    Eine End-to-End-Dokumentlösung erstellen

    Pipeline für Dokumentverarbeitung und -verständnis erstellen

    Document AI basiert auf GenAI und bietet eine sehr präzise Extraktion von Daten aus Dokumenten unterschiedlicher Layouts und Qualität. Sie können es mit Cloud Storage verbinden, um für Ihre unstrukturierten Dokumente unternehmensgerechte Compliance zu gewährleisten. Mit BigQuery können Sie die extrahierten Daten beliebig im Batch verarbeiten und analysieren. Mit Looker können Sie ganz einfach Visualisierungen basierend auf Ihren BigQuery-Tabellen erstellen. Mit Vertex AI Search können Sie Ihre Dokumente in Cloud Storage konversationell oder traditionell abfragen und durchsuchen.

    Document AI API bereitstellen
    Referenzarchitektur einer End-to-End-Dokumentlösung mit mehreren Google Cloud-Produkten

    Die Einrichtung der gesamten Pipeline dauert 60–90 Minuten. Für den Document AI-Teil benötigen Sie 10 Minuten.

    Pipeline für Dokumentverarbeitung und -verständnis erstellen

    Document AI basiert auf GenAI und bietet eine sehr präzise Extraktion von Daten aus Dokumenten unterschiedlicher Layouts und Qualität. Sie können es mit Cloud Storage verbinden, um für Ihre unstrukturierten Dokumente unternehmensgerechte Compliance zu gewährleisten. Mit BigQuery können Sie die extrahierten Daten beliebig im Batch verarbeiten und analysieren. Mit Looker können Sie ganz einfach Visualisierungen basierend auf Ihren BigQuery-Tabellen erstellen. Mit Vertex AI Search können Sie Ihre Dokumente in Cloud Storage konversationell oder traditionell abfragen und durchsuchen.

    Document AI API bereitstellen
    Referenzarchitektur einer End-to-End-Dokumentlösung mit mehreren Google Cloud-Produkten

    Die Einrichtung der gesamten Pipeline dauert 60–90 Minuten. Für den Document AI-Teil benötigen Sie 10 Minuten.

    Text aus Bildern extrahieren

    Mit der Cloud Vision API Text aus Bildern extrahieren

    Mit der Cloud Vision API können Sie Text und Handschrift aus Bildern in verschiedenen Sprachen erkennen und extrahieren. Außerdem bietet sie eine multiregionale Unterstützung , mit der Sie Datenspeicher auf Kontinentebene und OCR-Verarbeitung angeben können.

    Sie können sofort Ergebnisse für eine kleine Anzahl von Bildern (bis zu 16 pro Anfrage) erhalten oder asynchron eine Batchverarbeitung für eine größere Anzahl von Bildern (bis zu 2.000 pro Anfrage) für ein späteres Resultat durchführen.

    Cloud Vision API bereitstellen
    Grafikarchitektur der Cloud Vision API

    Mit der Cloud Vision API Text aus Bildern extrahieren

    Mit der Cloud Vision API können Sie Text und Handschrift aus Bildern in verschiedenen Sprachen erkennen und extrahieren. Außerdem bietet sie eine multiregionale Unterstützung , mit der Sie Datenspeicher auf Kontinentebene und OCR-Verarbeitung angeben können.

    Sie können sofort Ergebnisse für eine kleine Anzahl von Bildern (bis zu 16 pro Anfrage) erhalten oder asynchron eine Batchverarbeitung für eine größere Anzahl von Bildern (bis zu 2.000 pro Anfrage) für ein späteres Resultat durchführen.

    Cloud Vision API bereitstellen
    Grafikarchitektur der Cloud Vision API

    Preisbeispiel

    Zum Ausführen einer einfachen Verarbeitungspipeline, die Text aus Bildern extrahiert, wie in der rechten Abbildung gezeigt, betragen Ihre monatlichen Kosten 27,36 USD.

    Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.

    Die ersten 1.000 Einheiten pro Monat sind kostenlos.

    Kontaktieren Sie uns bei einer etwas komplexeren Einrichtung.
    Bildprozess

      Preise

      Wie viel kostet mein Anwendungsfall?Monatliche Kosten für einen Anwendungsfall mit den von Ihnen benötigten Produkten und wichtigen Annahmen zur Nutzung verstehen.
      AnwendungsfallVerwendete ProdukteAnnahmen zur NutzungGeschätzte monatliche Kosten (USD)
      Tagging von Bildern, Verarbeitung und Suche

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      1. 15.000 API-Aufrufe für die Cloud Vision-Labelerkennung pro Monat

      2. 100 GiB Speicher pro Monat

      3. Eine CPU mit 1,25 GiB

      4. Täglich 4 GiB über Pub/Sub veröffentlicht

      Berechnungsdetails im Taschenrechner ansehen

      27,36 $

      Text und Informationen aus Dokumenten extrahieren

      Document AI

      Cloud Storage

      BigQuery

      Cloud Functions

      1. 1.000 Formularparser-API-Aufrufe für Document AI pro Monat

      2. 100 GiB Speicher pro Monat

      3. 1 TiB monatliche Abfragen

      4. RAM: 512 MB, CPU: 800 MHz

      Berechnungsdetails im Taschenrechner ansehen

      71,87 $

      Text aus Bildern extrahieren

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      1. 15.000 API-Aufrufe für die Cloud Vision-OCR pro Monat

      2. 100 GiB Speicher pro Monat

      3. Eine CPU mit 1,25 GiB

      4. Täglich 4 GiB über Pub/Sub veröffentlicht

      Berechnungsdetails im Taschenrechner ansehen

      27,36 $

      Hier finden Sie die vollständigen Preise pro Einheit für Document AI, Vision API und AutoML.

      Wie viel kostet mein Anwendungsfall?

      Monatliche Kosten für einen Anwendungsfall mit den von Ihnen benötigten Produkten und wichtigen Annahmen zur Nutzung verstehen.

      Tagging von Bildern, Verarbeitung und Suche
      Verwendete Produkte

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      Annahmen zur Nutzung

      1. 15.000 API-Aufrufe für die Cloud Vision-Labelerkennung pro Monat

      2. 100 GiB Speicher pro Monat

      3. Eine CPU mit 1,25 GiB

      4. Täglich 4 GiB über Pub/Sub veröffentlicht

      Berechnungsdetails im Taschenrechner ansehen

      Geschätzte monatliche Kosten (USD)

      27,36 $

      Text und Informationen aus Dokumenten extrahieren
      Verwendete Produkte

      Document AI

      Cloud Storage

      BigQuery

      Cloud Functions

      Annahmen zur Nutzung

      1. 1.000 Formularparser-API-Aufrufe für Document AI pro Monat

      2. 100 GiB Speicher pro Monat

      3. 1 TiB monatliche Abfragen

      4. RAM: 512 MB, CPU: 800 MHz

      Berechnungsdetails im Taschenrechner ansehen

      Geschätzte monatliche Kosten (USD)

      71,87 $

      Text aus Bildern extrahieren
      Verwendete Produkte

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      Annahmen zur Nutzung

      1. 15.000 API-Aufrufe für die Cloud Vision-OCR pro Monat

      2. 100 GiB Speicher pro Monat

      3. Eine CPU mit 1,25 GiB

      4. Täglich 4 GiB über Pub/Sub veröffentlicht

      Berechnungsdetails im Taschenrechner ansehen

      Geschätzte monatliche Kosten (USD)

      27,36 $

      Hier finden Sie die vollständigen Preise pro Einheit für Document AI, Vision API und AutoML.

      Preisrechner

      Schätzen Sie die Kosten Ihres Projekts, indem Sie alle benötigten Tools an einem Ort abrufen.

      Individuelles Angebot

      Wenden Sie sich an unser Vertriebsteam, um ein individuelles Angebot für die besonderen Anforderungen Ihrer Organisation zu erhalten.

      Proof of Concept starten

      Neukunden erhalten ein Guthaben von bis zu 300 $, um Google Cloud-Produkte auszuprobieren

      Sie haben ein großes Projekt?

      Codebeispiele für OCR-Lösungen und Anwendungsfälle ansehen

      Labels mit der Cloud Vision API erkennen

      Hier erfahren Sie, wie Sie eine Pipeline zur Dokumentverarbeitung mit der KI von Google automatisieren

      Google Cloud
      • ‪English‬
      • ‪Deutsch‬
      • ‪Español‬
      • ‪Español (Latinoamérica)‬
      • ‪Français‬
      • ‪Indonesia‬
      • ‪Italiano‬
      • ‪Português (Brasil)‬
      • ‪简体中文‬
      • ‪繁體中文‬
      • ‪日本語‬
      • ‪한국어‬
      Console
      Google Cloud
        翻译: