复制功能概览

借助 Cloud Data Fusion Replication,您可以创建 从运营数据存储区(如 SQL)中持续实时地存储数据 导入到 BigQuery

如需使用“复制”功能,请选择以下任一方式:

  • 创建一个新的 Cloud Data Fusion 实例并添加复制应用。
  • 将复制应用添加到现有实例。

演示项目具有以下优势:

  • 在开始复制之前,可以识别架构不兼容性、连接问题和缺少的功能,然后提供纠正措施。

  • 实时使用最新操作数据在 BigQuery 中进行分析。使用基于日志的复制功能,可以将数据从 Microsoft SQL Server(使用 SQL Server CDC)和 MySQL(使用 MySQL 二进制日志)直接复制到 BigQuery 中。

  • 变更数据捕获 (CDC) 提供了一种数据流中已更改的数据的表示形式,使计算和处理操作主要侧重于最近更改的记录。这样可以最大限度地减少敏感生产系统的出站数据流量费用。

  • 企业级可伸缩性,支持大量事务型数据库 初始 支持在 BigQuery 中加载数据,且停机时间为零 快照复制,使数据仓库准备好使用更改 连续不断初始快照完成后,高吞吐量、连续 系统会开始实时复制更改。

  • 信息中心可帮助您实时了解复制性能。这有助于确定瓶颈并监控数据传输服务等级协议 (SLA)。

  • 包含对数据驻留、CMEK(客户管理的加密密钥)和 VPC Service Controls 的支持。Cloud Data Fusion 在 Google Cloud 中集成可确保遵循最高级别的企业级安全与隐私权,同时使数据仓库为您提供最新数据进行分析。

复制功能运行时,您需要为 Dataproc 集群付费,并且会对 BigQuery 产生处理费用。为了优化这些费用,我们强烈建议您使用 BigQuery 统一费率价格

如需了解详情,请参阅 Cloud Data Fusion 价格页面。

复制实体

实体 说明
复制 复制是 Cloud Data Fusion 的一项功能,能够以低延迟方式将数据从操作数据存储区复制到分析数据仓库中。创建 来配置单个副本 源和目标以及可选转换。
来源 读取数据库、表或列更改事件,并使这些事件可用于在复制作业中进行进一步处理。复制作业包含一个来源,它依赖于变更捕获解决方案来提供更改。一个数据库可以有多个来源,每个来源具有不同的变更捕获解决方案。源代码是使用插件构建的可插入模块 是 CDAP 的架构。如果来源无法满足您的需求,您可以通过实现源接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
目标 将从来源接收的更改写入目标数据库中。复制作业包含一个目标。目标是使用插件构建的可插入模块 是 CDAP 的架构。如果目标无法满足您的需求,您可以通过实现目标接口来自行构建,然后将其上传到 CDAP 或 Cloud Data Fusion。
来源属性 配置来源,包括连接详细信息、源数据库和表名称、凭据以及其他属性。
目标属性 配置目标,包括连接详细信息、目标数据库和表名称、凭据以及其他属性。
复制作业属性 配置复制作业,包括失败阈值、 暂存区域、通知和验证设置。
草稿 已保存的部分完成的复制作业。当 复制作业定义已完成,可以启动了。
活动 在来源中更改目标,以便复制到目标。事件包括插入、更新、删除和 DDL(数据定义语言)更改。
插入 在来源中添加新记录。
更新 更新来源中的现有记录。
删除 移除来源中的现有记录。
DDL 更改 包含架构更改(例如,数据类型或名称的更改)的事件。
日志 复制作业的操作日志。
复制作业详情 包含复制作业信息(例如 当前状态, 运营指标, 随时间变化的历史视图, 验证 及其配置。
信息中心 一个页面,其中列出了所有变更数据捕获活动(包括吞吐量、延迟时间、失败率和验证结果)的状态。

操作

操作 说明
部署 按照网页界面创建新的复制作业 流程指定来源、目标及其配置。
保存 保存部分创建的复制作业以继续 创建过程
删除 删除现有复制作业。只能删除已停止的流水线。
开始 启动复制作业。如果需要更改 复制作业将进入“活跃”状态; 否则,会进入“waiting”状态。
停止 停止复制作业。复制作业会停止处理来自来源的更改。
查看日志 查看复制作业的日志以进行调试 或其他分析方法
搜索 按名称、说明或其他复制作业元数据搜索复制作业。
评估 在开始复制之前先评估复制的影响。评估复制作业会生成一份评估报告,以对架构不兼容和缺失功能进行标记。

监控

复制器状态 说明
已部署 复制作业已部署,但尚未启动。 在此状态下,复制作业不会复制事件。
正在启动 复制作业正在初始化,尚未准备好复制更改。
正在运行 复制作业已启动,正在复制更改。
正在停止 复制作业正在停止。
已停止 复制作业已停止。
失败 由于出现严重错误,复制作业失败。

表状态

概念 说明
快照 复制作业正在截取当前内容的快照 表的状态。
复制 复制作业正在从来源复制更改 导出到目标表。
失败 复制作业无法从 存在错误。

指标

概念 说明
插入 在选定时间段内对目标应用的插入次数。
更新 在选定时间段内对目标应用的更新次数。
删除 在选定时间段内对目标应用的删除次数。
DDL 在选定时间段内对目标应用的 DDL 更改次数。
吞吐量 在选定时间段内复制到目标的事件数和字节数。
延迟时间 在选定时间段内数据复制到目标的延迟时间。

组件

组件 说明
服务 监督复制作业的端到端编排, 提供用于设计、部署、管理和 监控复制作业该组件在 Cloud Data Fusion 租户项目中运行(租户项目对用户不可见)。其状态显示在 Cloud Data Fusion 网页界面。
状态管理 该服务在一个集群中管理每个复制作业的状态, 客户项目中的 Cloud Storage 存储桶。存储桶可以是 在创建复制作业时配置的。它会存储 每个节点的当前偏移和复制状态 复制作业。
执行 Dataproc 集群提供 复制作业,这些作业在您的项目中运行。 复制作业使用 CDAP 工作器。执行的规模和特征 都配置了 Compute Engine 配置文件
源数据库 您的生产运营数据库,可复制到目标中 数据库。此数据库可位于本地或 Google Cloud 上。Cloud Data Fusion Replication 支持 MySQL、Microsoft SQL Server 和 Oracle 源数据库。
变更跟踪解决方案 Cloud Data Fusion 依赖于更改跟踪解决方案来读取源数据库中的更改,而不是在源数据库上运行的代理上运行。该解决方案可以是源数据库的组件,也可以是单独许可的第三方解决方案。在后一种情况下,更改跟踪解决方案在本地运行、与源数据库在同一位置运行或在 Google Cloud 上运行。每个来源都必须与更改跟踪解决方案相关联。
  1. SQL Server
    • 支持的解决方案SQL Server CDC(更改跟踪表)
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:可用的 SQL Server 2016 及更高版本
  2. MySQL
    • 支持的解决方案MySQL 二进制日志
    • 其他软件:无
    • 许可/费用:不适用
    • 注释:不适用
  3. Oracle
目标数据库 复制和分析的目标位置。Cloud Data Fusion 支持 BigQuery 目标数据库。
身份验证 身份验证机制因源数据库或更改跟踪软件而异。使用源数据库(如 SQL Server 和 MySQL)的内置功能时,系统使用数据库登录进行身份验证。在使用变更跟踪软件时, 使用的身份验证机制。

连接

下表介绍了复制功能所需的网络连接及其使用的安全机制。

发件人 To 可选 协议 网络 身份验证安全性 用途
服务(租户项目) 源数据库 取决于复制来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在设计时而非执行时需要,时间函数:表列出、评估(可选步骤;在不执行这些步骤的情况下复制可继续进行)
服务(租户项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) 源数据库 取决于来源。用于直接数据库连接的 JDBC。 对等互连 + 防火墙规则 + VPN/互连 + 路由器 数据库登录 在执行时需要,用于读取来源数据库中的更改以复制到目标
Dataproc(您的项目) Cloud Storage Cloud API VPC-SC IAM 状态管理:偏移、复制状态
Dataproc(您的项目) BigQuery Cloud API VPC-SC IAM 在执行时需要,用于将源数据库中的更改应用于目标

后续步骤