BigQuery-Connector

Mit einem BigQuery-Connector können Sie programmatischen Lese-/Schreibzugriff auf BigQuery ermöglichen. Dies ist ideal für die Verarbeitung von Daten, die in BigQuery gespeichert sind. Der Befehlszeilenzugriff wird nicht verfügbar gemacht. Der BigQuery-Connector ist eine Bibliothek, mit der Spark- und Hadoop-Anwendungen Daten aus BigQuery verarbeiten und in dessen nativer Terminologie in BigQuery schreiben können.

Kosten

Bei Verwendung des Connectors umfassen die Kosten die BigQuery-Nutzungsgebühren. Außerdem können folgende dienstspezifische Gebühren anfallen:

  • Cloud Storage: Der Connector lädt Daten vor oder während der Jobausführung in einen Cloud Storage-Bucket herunter. Diese Daten werden nach dem erfolgreichen Abschluss des Hadoop-Jobs wieder aus Cloud Storage gelöscht. Die Kosten für die Datenspeicherung entsprechen den in Cloud Storage – Preise angegebenen Preisen. Prüfen Sie Ihr Cloud Storage-Konto und entfernen Sie nicht benötigte temporäre Dateien, um übermäßige Gebühren zu vermeiden.
  • BigQuery Storage API: Der Connector liest Daten mit der BigQuery Storage API, um eine bessere Leistung zu erzielen. Diese Nutzung wird Ihnen gemäß den Preisen für die BigQuery Storage API in Rechnung gestellt.

Verfügbare Connectors

Die folgenden BigQuery-Connectors stehen für die Verwendung in der Hadoop-Umgebung zur Verfügung:

  1. Der BigQuery-Connector für Spark fügt eine Spark-Datenquelle hinzu, die es DataFrames ermöglicht, über die Spark-Vorgänge read und write direkt mit BigQuery-Tabellen zu interagieren.
  2. Der Hive-BigQuery-Connector fügt einen Speicher-Handler hinzu, der es Apache Hive ermöglicht, mithilfe der HiveQL-Syntax direkt mit BigQuery-Tabellen zu interagieren.
  3. Der Hadoop BigQuery-Connector ermöglicht Hadoop-Mapper und -Reducer die Interaktion mit BigQuery-Tabellen mit abstrahierten Versionen der InputFormat- und OutputFormat-Klassen.

Connectors verwenden

Folgende Beispiele ermöglichen den schnellen Einstieg in BigQuery-Connectors:

Nächste Schritte