使用 BigQuery 数据画布进行分析

本文档介绍了如何使用数据画布进行数据分析。您还可以使用 Dataplex 管理数据画布元数据。

BigQuery Studio 数据画布是 Gemini in BigQuery 功能的一部分,可让您使用自然语言提示和图形界面来查找、转换、查询和直观呈现数据,以便处理分析工作流。

对于分析工作流,BigQuery 数据画布使用有向无环图 (DAG),以图形方式显示工作流。在 BigQuery 数据画布中,您可以迭代查询结果,并在一个位置处理多个查询分支。

BigQuery 数据画布旨在加速分析任务,并帮助数据分析师、数据工程师等数据专业人士完成从数据到洞见的历程。您无需具备特定工具的技术知识,只需对读写 SQL 有基本的了解即可。BigQuery 数据画布与 Dataplex 元数据搭配使用,以根据自然语言确定适当的表。

BigQuery 数据画布不适合业务用户直接使用。

BigQuery 数据画布使用 Gemini in BigQuery 查找数据、创建 SQL、生成图表以及创建数据摘要。

了解 Gemini for Google Cloud 如何以及何时使用您的数据

功能

借助 BigQuery 数据画布,您可以执行以下操作:

  • 将自然语言查询或关键字搜索语法与 Dataplex 元数据搭配使用,以查找表、视图或物化视图等资产。

  • 使用自然语言来执行基本 SQL 查询,例如:

    • 包含 FROM 子句、数学函数、数组和结构体的查询。
    • 针对两个表的 JOIN 操作。
  • 使用自然语言描述您想要的内容,以创建自定义可视化。

  • 自动生成数据分析。

限制

  • 自然语言指令可能无法很好地与以下各项搭配使用:

    • BigQuery ML
    • Apache Spark
    • 对象表
    • BigLake
    • INFORMATION_SCHEMA 视图
    • JSON
    • 嵌套和重复字段
    • 复杂的函数和数据类型,例如 DATETIMETIMEZONE
  • 数据可视化功能不适用于地理图图表。

提示最佳实践

通过使用合适的提示技术,您可以生成复杂的 SQL 查询。以下建议可帮助 BigQuery 数据画布优化您的自然语言提示,从而提高查询的准确性:

  • 撰写清晰的文字。请明确说明您的请求,避免模糊不清。

  • 直接提问。为了获得最准确的答案,请一次只问一个问题,并简明扼要地提出问题。如果需要,请在 BigQuery 数据画布中将问题拆分为不同的节点。

  • 提供清晰明确的说明。在问题中突出显示关键字。

  • 指定操作顺序。以清晰有序的方式提供说明。将任务分解为专注的小步骤。

  • 优化和迭代。尝试使用不同的短语和方法,看看哪种方法能带来最佳结果。

如需了解详情,请参阅 BigQuery 数据画布的提示最佳实践

准备工作

  1. 确保已为您的 Google Cloud 项目启用 Gemini in BigQuery。此步骤通常由管理员执行。
  2. 确保您拥有使用 BigQuery 数据画布的必要 Identity and Access Management (IAM) 权限
  3. 如需在 Dataplex 中管理数据画布元数据,请确保已在您的 Google Cloud 项目中启用 Dataplex API

所需的角色

如需获得使用 BigQuery 数据画布所需的权限,请让管理员向您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 BigQuery 中的 IAM 角色和权限,请参阅 IAM 简介

如需在 Dataplex 中管理数据画布元数据,请确保您拥有所需的 Dataplex 角色dataform.repositories.get 权限。

节点类型

每个 BigQuery 数据画布都包含一个或多个节点。节点可以按任意顺序连接。BigQuery 数据画布具有以下节点类型:

  • 文本
  • 搜索
  • SQL
  • 可视化
  • 数据分析

文本节点

在 BigQuery 数据画布中,您可以使用文本节点向画布添加富文本内容。它非常适合在画布中添加说明、备注或说明,让您和其他人更轻松地了解分析的背景和目的。您可以向文本节点编辑器输入任何文本内容,包括用于设置格式的 Markdown。借助此功能,您可以创建视觉上富有吸引力且信息丰富的文本块。

在文本节点中,您可以执行以下操作:

  • 删除节点。
  • 调试节点。
  • 复制节点。

搜索节点

在 BigQuery 数据画布中,您可以使用搜索节点查找数据资产并将其纳入画布中。它可在您的自然语言查询或关键字搜索与您要处理的实际数据之间架起桥梁。

您可以使用自然语言或关键字提供搜索查询。搜索节点会搜索您的数据资产。它利用 Dataplex 元数据来增强上下文感知能力。BigQuery 数据画布还会建议您最近使用过的表、查询和已保存的查询。

搜索节点会返回与您的查询匹配的相关数据资产列表。它会考虑列名称和表说明。然后,您可以选择要将哪些素材资源添加为数据画布中的表格节点,以便进一步分析和可视化数据。

在搜索节点中,您可以执行以下操作:

  • 删除节点。
  • 调试节点。
  • 复制节点。

表节点

在 BigQuery 数据画布中,表节点代表您已纳入分析工作流中的特定表。它代表您正在处理的数据,可让您直接与其交互。

表节点会显示与表相关的信息,例如名称、架构和数据预览。您可以通过查看表架构、表详细信息和表预览等详细信息来与表互动。

在表节点中,您可以执行以下操作:

  • 删除节点。
  • 调试节点。
  • 复制节点。
  • 运行节点。
  • 运行该节点及其下一个节点。

在数据画布中,您可以执行以下操作:

  • 在新 SQL 节点中查询结果。
  • 将结果联接到另一个表。

SQL 节点

在 BigQuery 数据画布中,您可以使用 SQL 节点直接在画布中执行自定义 SQL 查询。您可以直接在 SQL 节点编辑器中编写 SQL 代码,也可以使用自然语言提示生成 SQL。

SQL 节点会针对指定的数据源执行所提供的 SQL 查询。SQL 节点会生成一个结果表,然后该表可以连接到数据画布中的其他节点,以进行进一步的分析或可视化。

查询运行后,您可以将其导出为定期查询导出查询结果或分享画布,这与运行 Interactive Query 类似。

在 SQL 节点中,您可以执行以下操作:

  • 将 SQL 语句导出为计划查询。
  • 删除节点。
  • 调试节点。
  • 复制节点。
  • 运行节点。
  • 运行该节点及其下一个节点。

在数据画布中,您可以执行以下操作:

  • 在新 SQL 节点中查询结果。
  • 在可视化节点中直观呈现结果。
  • 在“Insights”节点中生成有关结果的分析洞见。
  • 将结果联接到另一个表。

可视化节点

在 BigQuery 数据画布中,您可以使用可视化节点直观地显示数据,从而更轻松地了解趋势、模式和数据洞见。它提供了多种图表类型可供选择,让您可以为数据选择和自定义最合适的可视化效果。

可视化节点将表作为输入,该表可以是 SQL 查询的结果或表节点。可视化节点会根据所选的图表类型和输入表格中的数据生成图表。您可以选择自动生成图表,让 BigQuery 为您的数据选择最合适的图表类型。然后,可视化节点会显示生成的图表。

借助可视化节点,您可以自定义图表,包括更改颜色、标签和数据源。您还可以将图表导出为 PNG 文件。

使用以下图形类型可视化数据:

  • 条形图
  • 热图
  • 线形图
  • 饼图
  • 散点图

在可视化节点中,您可以执行以下操作:

  • 将图表导出为 PNG 文件。
  • 调试节点。
  • 复制节点。
  • 运行节点。
  • 运行该节点及其下一个节点。

在数据画布中,您可以执行以下操作:

  • 在“Insights”节点中生成有关结果的分析洞见。
  • 修改可视化图表。

数据分析节点

在 BigQuery 数据画布中,您可以使用“数据分析”节点根据数据画布中的数据生成数据分析和摘要。这有助于您发现模式、评估数据质量,以及对画布执行统计分析。它可以识别数据中的趋势、模式、异常值和相关性,并生成数据分析结果的简洁明了的摘要。

如需详细了解数据分析,请参阅在 BigQuery 中生成数据分析

在“数据分析”节点中,您可以执行以下操作:

  • 删除节点。
  • 复制节点。
  • 运行节点。

使用 BigQuery 数据画布

您可以在 Google Cloud 控制台、查询或表格中使用 BigQuery 数据画布。

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,点击 SQL 查询旁边的 新建,然后点击数据画布

    “创建数据画布”图标。

  3. 自然语言提示字段中,输入自然语言提示。

    例如,如果您输入 Find me tables related to trees,BigQuery 数据画布会返回可能的表格列表,包括 bigquery-public-data.usfs_fia.plot_treebigquery-public-data.new_york_trees.tree_species 等公共数据集。

  4. 请选择一个表。

    系统会将所选表的表节点添加到 BigQuery 数据画布中。 如需查看架构信息、查看表详细信息或预览数据,请选择表节点中的各个标签页。

以下示例演示了在分析工作流中使用 BigQuery 数据画布的不同方式。

工作流示例:查找、查询和直观呈现数据

在本例中,您将使用 BigQuery 数据画布中的自然语言提示查找数据、生成查询和修改查询。然后,创建一个图表。

提示 1:查找数据

  1. 在 Google Cloud 控制台中,进入 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,点击 SQL 查询旁边的 新建,然后点击数据画布

    “创建数据画布”图标。

  3. 自然语言提示字段中,输入以下自然语言提示:

    Chicago taxi trips
    

    BigQuery 数据画布会根据 Dataplex 元数据生成潜在表列表。您可以选择多个表。

  4. 选择 bigquery-public-data.chicago_taxi_trips.taxi_trips 表,然后点击添加到画布

    taxi_trips 的表节点会添加到 BigQuery 数据画布中。如需查看架构信息、查看表详细信息或预览数据,请选择表节点中的各个标签页。

提示 2:在所选表中生成 SQL 查询

如需为 bigquery-public-data.chicago_taxi_trips.taxi_trips 表生成 SQL 查询,请执行以下操作:

  1. 在数据画布中,点击查询

  2. 自然语言提示字段中,输入以下内容:

    Get me the 100 longest trips
    

    BigQuery 数据画布生成类似于以下内容的 SQL 查询:

    SELECT
      taxi_id,
      trip_start_timestamp,
      trip_end_timestamp,
      trip_miles
    FROM
      `bigquery-public-data.chicago_taxi_trips.taxi_trips`
    ORDER BY
      trip_miles DESC
    LIMIT
      100;

提示 3:修改查询

如需修改生成的查询,您可以手动修改查询,也可以更改自然语言提示并重新生成查询。在此示例中,您使用自然语言提示修改查询,以仅选择客户使用现金付款的行程。

  1. 自然语言提示字段中,输入以下内容:

    Get me the 100 longest trips where the payment type is cash
    

    BigQuery 数据画布生成类似于以下内容的 SQL 查询:

    SELECT
      taxi_id,
      trip_start_timestamp,
      trip_end_timestamp,
      trip_miles
    FROM
      `PROJECT_ID.chicago_taxi_trips_123123.taxi_trips`
    WHERE
      payment_type = 'Cash'
    ORDER BY
      trip_miles DESC
    LIMIT
      100;

    在上述示例中,PROJECT_ID 是您的 Google Cloud 项目的 ID。

  2. 如需查看查询结果,请点击运行

创建图表

  1. 在数据画布中,点击可视化
  2. 点击创建条形图

    BigQuery 数据画布会创建一个条形图,按行程 ID 显示最长行程里程数。BigQuery 数据画布除了提供图表之外,还汇总了支持可视化的数据的一些关键详细信息。

  3. 可选:执行以下一个或多个操作:

    • 如需修改图表,请点击修改,然后在修改可视化窗格中修改图表。
    • 如需共享数据画布,请点击共享,然后点击共享链接以复制 BigQuery 数据画布链接。
    • 如需清理数据画布,请选择 更多操作,然后选择 清除画布。 此步骤会生成一个空白画布。

工作流示例:联接表

在本例中,您将使用 BigQuery 数据画布中的自然语言提示查找数据和联接表。然后,您可以将查询导出为笔记本。

提示 1:查找数据

  1. 自然语言提示字段中,输入以下提示:

    Information about trees
    

    BigQuery 数据画布会推荐几个包含树相关信息的表。

  2. 在此示例中,选择 bigquery-public-data.new_york_trees.tree_census_1995 表,然后点击添加到画布

    表格会显示在画布上。

提示 2:按地址联接表

  1. 在数据画布上,点击联接

    BigQuery 数据画布会建议要联接的表。

  2. 如需打开新的自然语言提示字段,请点击搜索表格

  3. 自然语言提示字段中,输入以下提示:

    Information about trees
    
  4. 选择 bigquery-public-data.new_york_trees.tree_census_2005 表,然后点击添加到画布

    表格会显示在画布上。

  5. 在数据画布上,点击联接

  6. 在此画布上部分,选中表格单元格复选框,然后点击确定

  7. 自然语言提示字段中,输入以下提示:

    Join on address
    

    BigQuery 数据画布建议 SQL 查询在地址上联接这两个表。

    SELECT
      *
    FROM
      `bigquery-public-data.new_york_trees.tree_census_2015` AS t2015
    JOIN
      `bigquery-public-data.new_york_trees.tree_census_1995` AS t1995
    ON
      t2015.address = t1995.address;
  8. 如需运行查询并查看结果,请点击运行

将查询导出为笔记本

借助 BigQuery 数据画布,您可以将查询导出为笔记本。

  1. 在数据画布中,点击导出为笔记本
  2. 保存笔记本窗格中,输入笔记本的名称和要将其保存到的区域。
  3. 点击保存。笔记本已成功创建。
  4. 可选:如需查看创建的笔记本,请点击打开

工作流示例:使用提示修改图表

在本例中,您将使用 BigQuery 数据画布中的自然语言提示查找、查询和过滤数据,然后修改可视化图表详细信息。

提示 1:查找数据

  1. 如需查找与美国人名相关的数据,请输入以下提示:

    Find data about USA names
    

    BigQuery 数据画布会生成表列表。

  2. 在此示例中,选择 bigquery-public-data.usa_names.usa_1910_current 表,然后点击添加到画布

提示 2:查询数据

  1. 如需查询数据,请在数据画布中点击查询,然后输入以下提示:

    Summarize this data
    

    BigQuery 数据画布生成类似于以下内容的查询:

    SELECT
      state,
      gender,
      year,
      name,
      number
    FROM
      `bigquery-public-data.usa_names.usa_1910_current`
  2. 点击运行。系统会显示查询结果。

提示 3:过滤数据

  1. 在数据画布中,点击查询这些结果
  2. 如需过滤数据,请在 SQL 提示字段中输入以下提示:

    Get me the top 10 most popular names in 1980
    

    BigQuery 数据画布生成类似于以下内容的查询:

    SELECT
      name,
      SUM(number) AS total_count
    FROM
      `bigquery-public-data`.usa_names.usa_1910_current
    WHERE
      year = 1980
    GROUP BY
      name
    ORDER BY
      total_count DESC
    LIMIT
      10;

    运行查询后,您会得到一个表,其中包含 1980 年新生儿使用最多的 10 个名字。

创建和修改图表

  1. 在数据画布中,点击可视化

    BigQuery 数据画布会推荐几个可视化选项,包括条形图、饼图、折线图和自定义可视化。

  2. 对于本示例,请点击创建条形图

    BigQuery 数据画布会创建一个类似如下的条形图:

    使用最多的 10 个名字的条形图。

BigQuery 数据画布除了提供图表之外,还汇总了支持可视化的数据的一些关键详细信息。若要修改图表,您可以点击可视化详情并在侧边栏中修改图表。

提示 4:修改可视化图表详情

  1. 可视化提示字段中,输入以下内容:

    Create a bar chart sorted high to low, with a gradient
    

    BigQuery 数据画布会创建一个类似如下的条形图:

    使用最多的 10 个名字的已排序条形图。

  2. 可选:如需进行进一步更改,请点击修改

    系统随即会显示修改可视化图表窗格。您可以修改图表标题、x 轴名称和 y 轴名称等详细信息。此外,如果点击 JSON 编辑器标签页,您可以根据 JSON 值直接修改图表。

查看所有数据画布

如需查看项目中所有数据画布的列表,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击数据画布旁边的 查看操作,然后执行以下操作之一:

  • 如需在当前标签页中打开该列表,请点击全部显示
  • 如需在新标签页中打开该列表,请点击在以下位置全部显示> 新标签页
  • 如需在拆分标签页中打开该列表,请点击在以下位置全部显示> 拆分标签页

查看数据画布元数据

如需查看数据画布元数据,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要查看其元数据的数据画布的名称。

  3. 查看摘要窗格,查看有关数据画布的信息,例如其使用的区域和上次修改日期。

使用数据画布版本

您可以选择在代码库内或外部创建数据画布。系统会根据数据画布的位置以不同的方式处理数据画布的版本控制。

代码库中的数据画布版本控制

代码库是位于 BigQuery 或第三方提供商中的 Git 代码库。您可以在代码库中使用工作区对数据画布执行版本控制。如需了解详情,请参阅对文件使用版本控制

在代码库之外进行数据画布版本控制

您可以查看、比较和恢复数据画布的版本。

查看和比较数据画布版本

如需查看数据画布的不同版本并将其与当前版本进行比较,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要查看其活动的数据画布的名称。

  3. 点击活动标签页,可查看按日期降序排列的数据画布版本列表。

  4. 点击数据画布版本旁边的 查看操作,然后点击比较。此时会打开比较窗格,将您选择的数据画布版本与当前的数据画布版本进行比较。

  5. 可选:如需以内嵌方式(而不是在单独的窗格中)比较版本,请点击比较,然后点击内嵌

恢复数据画布版本

使用以下任一选项来恢复数据画布版本。 通过从比较窗格中恢复数据,您可以在选择是否恢复之前将数据画布的先前版本与当前版本进行比较。

“活动”窗格

  1. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要恢复其旧版本的数据画布的名称。
  2. 选择活动窗格。
  3. 点击要恢复的数据画布版本旁边的 查看操作,然后点击恢复
  4. 点击确认以确认操作。

“比较”窗格

  1. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要恢复其旧版本的数据画布的名称。
  2. 选择活动窗格。
  3. 点击数据画布版本旁边的 查看操作,然后点击比较。此时会打开比较窗格,将您选择的数据画布版本与最新的数据画布版本进行比较。
  4. 如果要在比较后恢复之前的数据画布版本,请点击恢复
  5. 点击确认以确认操作。

在 Dataplex 中管理元数据

借助 Dataplex,您可以查看和管理数据画布的元数据。默认情况下,Dataplex 中会提供数据画布,无需进行其他配置。

您可以使用 Dataplex 在所有 BigQuery 位置管理数据画布。在 Dataplex 中管理数据画布需遵守 Dataplex 配额和限制以及 Dataplex 价格

Dataplex 会自动从数据画布中检索以下元数据:

  • 数据资产名称
  • 数据素材资源父级
  • 数据资产位置
  • 数据素材资源类型
  • 对应的 Google Cloud 项目

Dataplex 会将数据画布作为条目记录在日志中,并包含以下条目值:

系统条目组
数据画布的系统条目组@dataform。如需查看 Dataplex 中数据画布条目的详细信息,您需要查看 dataform 系统条目组。如需了解如何查看条目组中所有条目的列表,请参阅 Dataplex 文档中的查看条目组的详细信息
系统条目类型
数据画布的系统条目类型dataform-code-asset。如需查看数据画布的详细信息,您需要查看 dataform-code-asset 系统条目类型,使用基于方面的过滤器过滤结果,并dataform-code-asset 方面内的 type 字段设置为 DATA_CANVAS。然后,选择所选数据画布的条目。 如需了解如何查看所选条目类型的详细信息,请参阅 Dataplex 文档中的查看条目类型的详细信息。如需了解如何查看所选条目的详细信息,请参阅 Dataplex 文档中的查看条目的详细信息
系统方面类型
数据画布的系统方面类型dataform-code-asset。如需通过使用方面为数据画布条目添加注释,从而为 Dataplex 中的数据画布提供更多上下文信息,请查看 dataform-code-asset 方面类型,使用基于方面的过滤器过滤结果,并dataform-code-asset 方面内的 type 字段设置为 DATA_CANVAS。如需了解如何使用方面为条目添加注解,请参阅 Dataplex 文档中的管理方面并丰富元数据
类型
数据画布的类型为 DATA_CANVAS。借助此类型,您可以使用基于方面过滤器中的 aspect:dataplex-types.global.dataform-code-asset.type=DATA_CANVAS 查询过滤 dataform-code-asset 系统条目类型和 dataform-code-asset 方面类型中的数据画布。

如需了解如何在 Dataplex 中搜索资产,请参阅 Dataplex 文档中的在 Dataplex 中搜索数据资产

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

配额和限制

如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额

提供反馈

您可以通过向 Google 提交反馈,帮助改进 BigQuery 数据画布建议。如需提供反馈,请执行以下操作:

  1. 在 Google Cloud 控制台工具栏中,点击提交反馈

  2. 可选:如需复制 DAG JSON 信息,为您的反馈提供更多上下文,请点击 复制

  3. 如需填写表单并提供反馈,请点击表单

数据共享设置适用于整个项目,且只能由拥有 serviceusage.services.enableserviceusage.services.list IAM 权限的项目管理员设定。如需详细了解可信测试员计划中的数据使用方式,请参阅 Google Cloud 可信测试员计划中的 Gemini

如需直接提供有关此功能的反馈,您还可以联系 datacanvas-feedback@google.com

后续步骤