Data Lineage ist ein Dataplex eine Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen und woher sie kommen. wo sie übergeben wird und welche Transformationen darauf angewendet werden.
Warum benötigen Sie Data Lineage?
Der Umgang mit großen Datasets beinhaltet oft die Umwandlung von Daten in maßgeschneiderte Entitäten an die Anforderungen eines bestimmten Projekts angepasst: Textdateien, Tabellen, Berichte, Dashboards, Modelle.
Angenommen, Sie haben einen Onlineshop, in dem Sie jeden Kauf in einer einzelnen SQL-Tabelle. Um Ihren Analysefachkräften die Arbeit mit den Daten zu erleichtern, beginnen Sie mit der Ausführung von Jobs, die Informationen aus dieser Tabelle extrahieren kleinere Tabellen nach Region, Marke oder Sonderangebotspreis. Ihre Analysefachkräfte beginnen, das Gleiche zu tun: Sie führen weitere Transformationen durch und führen diese kleineren mit anderen Datenquellen kombinieren, um noch mehr Tabellen zu erstellen.
Dies kann für Ihre Stakeholder zu einer großen Herausforderung werden:
- Datenkonsumenten können kein Self-Service-Tool verwenden, um zu erkennen, aus vertrauenswürdigen Quellen stammen.
- Data Engineers können Probleme nicht aufgrund mangelnder zuverlässiger Methoden verursachen. um alle Datentransformationen zu verfolgen.
- Data Engineers und Analysten können die möglichen Auswirkungen Tabellen ändern oder löschen.
- Datenverantwortliche wissen nicht, wie sensible Daten im gesamten Unternehmen und stellen sicher, dass gesetzliche Vorschriften eingehalten werden.
Data Lineage ist eine Lösung, die eine praktische Möglichkeit bietet:
- Verstehen, wie Daten mithilfe von Lineage abgerufen und transformiert werden grafische Visualisierungen.
- Trace-Fehler im Zusammenhang mit Einträgen und Datenvorgängen zurück zum Stammverzeichnis Ursachen.
- Ermöglichen Sie ein besseres Änderungsmanagement durch Wirkungsanalysen: Vermeiden Sie Ausfallzeiten oder Fehler zu vermeiden, abhängige Einträge zu verstehen und Stakeholdern zu kommunizieren.
Data-Lineage-Informationsmodell
In ihrer Grundform ist die Lineage ein Datensatz der transformierten Daten von Quellen zu Zielen. Die Data Lineage API erhebt diese Informationen und organisiert sie in einem hierarchischen Datenmodell unter Verwendung der Konzepte von Prozessen, Läufe und Ereignisse.
Prozess
Ein Prozess ist die Definition eines Datentransformationsvorgangs, der für
einem bestimmten System. Im Kontext der BigQuery-Lineage
process
gehört zu den unterstützten Jobtypen.
Ausführen
Ausführung ist die Ausführung eines Prozesses. Prozesse können mehrere Ausführungen haben.
Ausführungen enthalten Details wie Start- und Endzeiten, Status oder zusätzliche Attribute.
Weitere Informationen finden Sie in der
run
-Ressourcenreferenz.
Ereignis
Ein Ereignis stellt einen Zeitpunkt dar, zu dem ein Datentransformationsvorgang ausgeführt wurde. und dazu führten, dass Daten zwischen einer Quell- und einer Zielentität verschoben wurden.
Ereignisse enthalten eine Liste von Links, die definieren, welcher Eintrag die Quelle war. und das Ziel eines bestimmten Ereignisses war. Während Ereignisse für die Berechnung Grafiken zur Visualisierung der Herkunft, die nicht direkt in der Google Cloud Console angezeigt werden. Sie können sie mit der Data Lineage API erstellen, lesen und löschen (aber nicht aktualisieren).
Beispiel
Im folgenden Beispiel werden Daten zwischen BigQuery kopiert Tabellen:
<ph type="x-smartling-placeholder">Wie Daten zwischen den Tabellen verschoben werden, wird durch den Lineage-Prozess beschrieben.
(in der Grafik durch die
icon): Das kann eine CREATE TABLE AS SELECT
-SQL-Abfrage oder eine INSERT
-Anweisung sein.
Jede Ausführung dieser SQL-Anweisung stellt eine einzelne Ausführung dar.
Ausführungen enthalten Ereignisse, mit denen aufgezeichnet wird, welche Tabellen als Quellen und
die als Ziele verwendet werden. In diesem Beispiel sind die Tabellen
customer_year
und customers
sind beides die Quelle.
für die Zieltabelle top_customer
.
Grafik zur Visualisierung der Herkunft
Lineage-Diagramme enthalten Informationen, die von der Data Lineage API erfasst wurden für einen bestimmten Data Catalog-Eintrag. Root verweist auf den Eintrag, den Sie erstellen. für die die Herkunft angezeigt wird.
Dataplex verwendet die Data Lineage API, um Einträge zu identifizieren, Der voll qualifizierte Name stimmt mit Entitäten überein, die von der Data-Lineage erkannt werden. Für übereinstimmende Dataplex-Einträge können Sie auf die Lineage zugreifen auf der Detailseite und sehen sich das Diagramm an.
Lineage-Diagramme enthalten zwei Arten von Elementen:
Breite, rechteckige Schaltflächen, die Elemente darstellen, die an der Konstruktion beteiligt sind Lineage-Informationen als Quellen oder Ziele eines Lineage-Ereignisses.
Kleinere, quadratische Schaltflächen, die Prozesse darstellen, die für die Erstellung oder Aktualisieren der Quell- oder Zielentitäten. Für die Prozessschaltflächen werden Symbole spezifisch für das Quellsystem, das sie an die Data Lineage API gemeldet hat. BigQuery-Jobs verwenden beispielsweise die Methode -Symbol.
Listenansicht für Herkunft
Die Lineage-Listenansicht zeigt detaillierte Lineage-Informationen für Entitäten in einem in einer einzelnen Tabelle.
Im Vergleich zum Diagramm zur Visualisierung der Herkunft, das für die Anzeige besser geeignet ist relativ kleine Lineage-Grafiken gezeichnet, können Sie in der Lineage-Listenansicht Informationen für Entitäten mit vielen Verbindungen.
Die folgende Abbildung zeigt ein Beispiel für die Lineage-Listenansicht in der Google Cloud Console In der folgenden Liste wird das Bild ausführlicher beschrieben. Details.
<ph type="x-smartling-placeholder">Jede Zeile in der Tabelle stellt eine einzelne Herkunftsverknüpfung zwischen zwei Einträgen dar. Im Diagramm werden diese Namen als Herkunftsverbindungen zwischen zwei einschließlich aller dazwischen liegenden Prozessknoten. Beispiel:
Source
undTarget
sind Asset-Knoten mit möglicherweise mehreren Prozessknoten dazwischen.Die Option Richtung gibt den Teil des Datenflusses an, der in der in Bezug auf das Stamm-Asset:
Upstream: Zeigt die Herkunftsinformationen für Einträge an, die Datenquellen sind. für den ausgewählten Eintrag. Im Lineage-Diagramm sind diese Einträge die links neben dem ausgewählten Eintrag angezeigt werden.
Downstream: Zeigt die Herkunftsinformationen für Einträge an, die aus dem ausgewählten Eintrag abgeleitet wird. Im Lineage-Diagramm sind diese Einträge die rechts neben dem ausgewählten Eintrag angezeigt werden.
Die Tiefe gibt an, wie weit sie von der Stammressource entfernt ist, von einer Quelle oder der abgeleiteten Ressource ist. In der Listenansicht werden bis zu 1.000 Lineage-Links angezeigt, wobei maximale Tiefe vom Stamm als 10 Lineage-Links. Wenn es eine Herkunft gibt außerhalb dieses Bereichs, werden Sie benachrichtigt. Sie können die Herkunft außerhalb dieses Bereichs sehen indem Sie den Namen einer anderen Entität in der Listenansicht auswählen.
Im Bereich Details werden Informationen zur Quelle des Links, dem Ziel und für alle Prozesse, die diesen Link erstellt haben.
Sie können anpassen, welche Spalten in der Tabelle angezeigt werden, und die Spalten Ergebnisse. Sie können die Ergebnisse auch in eine CSV-Datei exportieren.
Automatisierte Verfolgung der Herkunft der Daten
Wenn Sie die Data Lineage API aktivieren, werden Google Cloud-Systeme, die Data Lineage beginnen, ihre Datenbewegungen zu melden. Jedes integrierte System kann Herkunftsinformationen für Daten aus einem anderen Bereich. In den folgenden Abschnitten finden Sie weitere Informationen zu alle unterstützten Produkte.
<ph type="x-smartling-placeholder">BigQuery
Gründe für das Aktivieren der Data Lineage im BigQuery-Projekt Dataplex erfasst Lineage-Informationen für:
- Neue Tabellen infolge der folgenden BigQuery-Jobs:
<ph type="x-smartling-placeholder">
- </ph>
- Kopierjobs
- Load-Jobs, die die Klasse Cloud Storage-URI zum Laden von Daten in einem beliebigen zulässigen Format aus Cloud Storage*
- Abfragejobs, die die folgenden Daten verwenden Definition Language (DDL) in Google Standard-SQL: <ph type="x-smartling-placeholder">
- Vorhandene Tabellen als Ergebnis der folgenden Datenmanipulation
Anweisungen der Sprache (DML) in Google Standard-SQL:
<ph type="x-smartling-placeholder">
- </ph>
- AUSWÄHLEN in Bezug auf einen der aufgeführten Tabellentypen: <ph type="x-smartling-placeholder">
- AUSWAHL EINFÜGEN
- Zusammenführen
- AKTUALISIEREN
- LÖSCHEN
BigQuery-Kopier-, Abfrage- und Ladejobs werden dargestellt. Prozesse (klicken Sie auf das Suchglassymbol im Lineage-Visualisierungsdiagramm, um den Prozess Details). Jeder Prozess enthält die BigQuery-job_id. in der attributes Liste für den letzten BigQuery-Job.
Weitere Services
Data Lineage unterstützt die Integration mit Google Cloud-Dienste:
Data Lineage für benutzerdefinierte Datenquellen
Sie können die Data Lineage API verwenden. in Dataplex, um Lineage-Informationen für jede Datenquelle manuell aufzuzeichnen. die von den integrierten Systemen nicht unterstützt wird.
Dataplex kann Visualisierungsdiagramme für manuell aufgezeichnete Daten erstellen
Lineage, wenn Sie eine
fullyQualifiedNames
enthalten, die dem
qualifizierter Namen vorhandener Data Catalog-Einträge. Wenn Sie
Herkunft für eine benutzerdefinierte Datenquelle verwenden möchten, erstellen Sie zuerst eine
benutzerdefinierten Data Catalog-Eintrag.
Jeder Prozess für eine benutzerdefinierte Datenquelle kann in den Attributen den Schlüssel sql
enthalten
Liste. Der Wert eines solchen Schlüssels wird verwendet, um die Codehervorhebung im Detail zu rendern
des Data-Lineage-Diagramms. SQL-Anweisung wird so angezeigt, wie sie war
bereitgestellt. Der Nutzer ist dafür verantwortlich, vertrauliche Informationen herauszufiltern. Die
Beim Schlüsselnamen sql
wird zwischen Groß- und Kleinschreibung unterschieden.
OpenLineage
Wenn Sie OpenLineage bereits verwenden, um Lineage-Informationen von anderen können Sie OpenLineage-Ereignisse in Dataplex importieren und um diese Ereignisse in der Google Cloud Console anzuzeigen. Weitere Informationen finden Sie unter In OpenLineage einbinden
Beschränkungen
- Alle Herkunftsinformationen werden nur 30 Tage im System aufbewahrt.
- Herkunftsinformationen bleiben erhalten, nachdem Sie die zugehörige Datenquelle entfernt haben. Das heißt, wenn Sie eine BigQuery-Tabelle und ihren Data Catalog entfernen können Sie die Herkunft für diese Tabelle mit der API noch bis zu 30 Tage:
Auf Datenherkunft zugreifen
Sie können auf Data Lineage-Funktionen zugreifen:
- Eintragsdetails in der Dataplex-UI in der Google Cloud Console. Siehe Herkunftsdiagramme ansehen.
- Seite „Tabellendetails“ in der BigQuery-UI in der Google Cloud Console Siehe Herkunftsdiagramme ansehen.
- Dataset- und Modell-Registry-Seiten in der Vertex AI-UI in der Google Cloud Console. Siehe Herkunftsdiagramme ansehen.
- Data Lineage API
Preise
Dataplex nutzt die Premium-Verarbeitungs-SKU, um Data Lineage. Weitere Informationen finden Sie unter Preise.
Um Gebühren für Data Lineage von anderen Gebühren in der SKU für die Dataplex-Premium-Verarbeitung in der Cloud Billing-Bericht, verwenden Sie das Label
goog-dataplex-workload-type
mit dem WertLINEAGE
.
Nächste Schritte
Administrative Informationen finden Sie in den aktualisierten IAM-Abschnitten, in den Hinweisen zur Herkunft und im Audit-Logging von Data Lineage.