La replicación de Cloud Data Fusion te permite replicar tus datos de forma continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, en BigQuery.
Para usar la replicación, elige uno de los siguientes métodos:
- Crea una instancia nueva de Cloud Data Fusion y agrega App de replicación.
- Agregar la app de Replicación a una instancia existente
Estos son algunos de los beneficios:
Identificación de incompatibilidades de esquemas, problemas de conectividad y faltantes atributos antes de iniciar la replicación y, luego, proporciona medidas correctivas.
Usar los datos operativos más recientes en tiempo real para su análisis en en BigQuery. Usas la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (con CDC de SQL Server) y MySQL (con el registro binario de MySQL).
La captura de datos modificados (CDC) que proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se enfoquen específicamente en los registros modificados más recientemente. Esto minimiza los cargos por datos salientes en en sistemas de producción sensibles.
Escalabilidad empresarial que admite bases de datos transaccionales de gran volumen Inicial grandes cantidades de datos a BigQuery son compatibles sin tiempo de inactividad replicación de instantáneas, a fin de preparar el almacén de datos para consumir cambios de forma continua. Una vez que se completa la instantánea inicial, las cargas la replicación de cambios comienza en tiempo real.
Los paneles te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.
Incluye compatibilidad con residencia de datos y claves de encriptación administradas por el cliente (CMEK) y Controles del servicio de VPC. Integración de Cloud Data Fusion en Google Cloud garantiza que los niveles más altos de seguridad y se respeta la privacidad mientras se ponen a disposición los datos más recientes en tus datos para analítica.
Precios recomendados
Cuando se ejecuta la replicación, se te cobra por Dataproc clúster y se generan costos de procesamiento para BigQuery. Para optimizar estos costos, te recomendamos que uses las versiones precios de tarifas.
Para obtener más información, consulta Cloud Data Fusion Precios.
Entidades de replicación
Entity | Descripción |
---|---|
Replicación | La replicación es una función de Cloud Data Fusion que permite replicar datos de forma continua a una latencia baja de almacenes de datos operativos a almacenes de datos analíticos. Crea un el trabajo de replicación mediante la configuración fuente y destino con transformaciones opcionales. |
Fuente | Lee eventos de cambio de base de datos, tabla o columna y los hace disponibles para su procesamiento en un trabajo de replicación. R el trabajo de replicación una fuente, que se basa en una solución de captura de cambios para proporcionar los cambios. Puede haber múltiples fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable compilado con el complemento. de la CDAP. Si una fuente no está disponible para satisfacer tus necesidades, puedes compilar la tuya implementando la interfaz de origen. y, luego, subirlo a CDAP o Cloud Data Fusion. |
Target | Escribe en un destino los cambios recibidos de una fuente en la base de datos. Un trabajo de replicación contiene un destino. Un destino es un módulo conectable compilado con el complemento de la CDAP. Si un objetivo no está disponible para satisfacer tus necesidades, puedes crear la tuya implementando la interfaz de destino subirlo a CDAP o Cloud Data Fusion. |
Propiedades fuente | Configura la fuente, incluidos los detalles de la conexión, nombres de tablas y base de datos de origen, credenciales y otras propiedades. |
Propiedades de destino | Configura el destino, incluidos los detalles de la conexión, nombres de la base de datos y tablas de destino, credenciales y otras propiedades. |
Propiedades del trabajo de replicación | Configura el trabajo de replicación, incluidos los umbrales de fallas, las áreas de etapa de pruebas, las notificaciones y la configuración de validación. |
Borrador | Un trabajo de replicación guardado y parcialmente completado. Cuando del trabajo de replicación, se completa y se puede iniciar. |
Eventos | Cambia los eventos de la fuente para que se repliquen en el destino. Eventos incluyen inserciones, actualizaciones, eliminaciones y DDL (lenguaje de definición de datos) cambios. |
Insertar | Adición de registros nuevos en la fuente. |
Actualizar | Actualiza a los registros existentes en la fuente. |
Borrar | Eliminación de registros existentes en la fuente |
Cambio de DDL | Un evento que contiene un cambio de esquema, como un cambio en los datos tipo o nombre. |
Registros | Los registros operativos de un trabajo de replicación. |
Detalles del trabajo de replicación | Una página de detalles con información del trabajo de replicación, como su estado actual, métricas operativas, vista histórica a lo largo del tiempo, validación los resultados y su configuración. |
Panel | Una página que enumera el estado de todas las actividades de captura de datos modificados incluidos la capacidad de procesamiento, la latencia, las tasas de fallas y la resultados. |
Acciones
Acciones | Descripción |
---|---|
Implementar | Crea un nuevo trabajo de replicación mediante el seguimiento de una interfaz web para especificar un origen, un destino y su configuración. |
Guardar | Guarda un trabajo de replicación parcialmente creado para reanudarlo su creación más adelante. |
Borrar | Borrar un trabajo de replicación existente Solo detenidos se pueden borrar las canalizaciones. |
Iniciar | Comenzar un trabajo de replicación. Si hay cambios que procesado, el trabajo de replicación entra al estado “activo”; de lo contrario, entra en el estado `esperando`. |
Detener | Detener un trabajo de replicación. El trabajo de replicación deja de procesar cambios de la fuente. |
Ver registros | Visualiza registros de un trabajo de replicación para depuración o algún otro análisis. |
Buscar | Buscar un trabajo de replicación por su nombre, descripción, o a otros metadatos de trabajos de replicación. |
Evaluación | Evaluar el impacto de la replicación antes de iniciarla La evaluación de un trabajo de replicación genera un informe de evaluación que marca incompatibilidades de esquema y atributos faltantes. |
Supervisión
Estados del replicador | Descripción |
---|---|
Implementado | Se implementó el trabajo de replicación, pero no se inició. En este estado, un trabajo de replicación no replica eventos. |
Iniciando | El trabajo de replicación se está inicializando y no listas para replicar los cambios. |
En ejecución | Se inició el trabajo de replicación y se está replicando cambios. |
Deteniendo | Se detendrá el trabajo de replicación. |
Detenida | Se detuvo el trabajo de replicación. |
Con errores | El trabajo de replicación falló debido a errores fatales. |
Estados de la tabla
Concepto | Descripción |
---|---|
Captura de instantáneas | El trabajo de replicación toma una instantánea estado de la tabla antes de replicar los cambios. |
Con replicación | El trabajo de replicación replica los cambios de la fuente en la tabla de destino. |
Falló | El trabajo de replicación no puede replicar los cambios de la de la tabla de origen debido a un error. |
Métricas
Concepto | Descripción |
---|---|
Inserciones | La cantidad de inserciones aplicadas al objetivo en el tiempo seleccionado período. |
Actualizaciones | La cantidad de actualizaciones aplicadas al objetivo en el tiempo seleccionado período. |
Eliminaciones | La cantidad de eliminaciones aplicadas al objetivo en el tiempo seleccionado período. |
DDL | La cantidad de cambios de DDL aplicados al objetivo en el momento seleccionado período. |
Capacidad de procesamiento | La cantidad de eventos y la cantidad de bytes replicados en el destino en el período seleccionado. |
Latencia | La latencia con la que los datos se replican en el destino en la zona seleccionada durante un período de tiempo. |
Componentes
Componente | Descripción |
---|---|
Servicio | Supervisa la organización de extremo a extremo de los trabajos de replicación. y brinda capacidades para diseñar, implementar, gestionar y y supervisar trabajos de replicación. Se ejecuta en el Proyecto de usuario de Cloud Data Fusion (el proyecto de usuario está oculto) del usuario). Su estado se muestra en la página **System Admin** de la interfaz web de Cloud Data Fusion. |
Administración de estado | El servicio administra el estado de cada trabajo de replicación en una bucket de Cloud Storage en el proyecto del cliente. El bucket puede ser cuando se crea el trabajo de replicación. Almacena las las compensaciones actuales y el estado de replicación de cada una el trabajo de replicación. |
Ejecución | Los clústeres de Dataproc brindan el entorno de ejecución trabajos de replicación, que se ejecutan en tu proyecto. que los trabajos de replicación se ejecutan Trabajadores de CDAP. El tamaño y las características de la ejecución se configuran con perfiles de Compute Engine. |
Base de datos de origen | Tu base de datos operativa de producción que se replica en tu destino en la base de datos. Esta base de datos se puede ubicar de manera local o en Google Cloud. Cloud Data Fusion La replicación admite MySQL, Microsoft SQL Server y Oracle. |
Solución de seguimiento de cambios | En vez de ejecutarse en un agente
que se ejecuta en la base de datos de origen,
Cloud Data Fusion se basa en una solución de seguimiento de cambios para
leer cambios en la base de datos de origen. La solución puede ser un componente
la base de datos de origen o un servicio de terceros
de Google Cloud. En este último caso, la solución de seguimiento de cambios ejecuta
a nivel local, junto con la base de datos de origen o en
en Google Cloud. Cada fuente debe estar asociada con un cambio
de seguimiento de conversiones.
|
Base de datos objetivo | La ubicación de destino para la replicación y el análisis. Cloud Data Fusion admite el BigQuery en la base de datos de destino. |
Authentication | Los mecanismos de autenticación varían según la base de datos de origen o software de seguimiento de cambios. Cuando se usan las capacidades integradas de la fuente bases de datos, como SQL Server y MySQL, los accesos a bases de datos se usan para la autenticación de varios factores. Cuando se usa un software de seguimiento de cambios, el y se usa un mecanismo de autenticación del software. |
Conectividad
En la siguiente tabla, se describen las conexiones de red necesarias para La replicación y los mecanismos de seguridad que usan
Desde | Hasta | Opcional | Protocolo | Red | Seguridad de autenticación | Objetivo |
---|---|---|---|---|---|---|
Servicio (proyecto de usuario) | BD de origen | Sí | Depende de la fuente de replicación. JDBC para acceso directo la conexión de la base de datos. | Intercambio de tráfico + reglas de firewall + VPN/interconexión + router | Acceso a bases de datos | Se requiere en el diseño, no en la ejecución, en el momento Funciones: Lista de tablas, Evaluación (pasos opcionales; la replicación puede continuar sin ellos) |
Servicio (proyecto de usuario) | Cloud Storage | No | API de Cloud | VPC‑SC | IAM | Administración de estado: Desplazamientos, estados de replicación |
Dataproc (tu proyecto) | BD de origen | No | Depende de la fuente. JDBC para la conexión directa a BD. | Intercambio de tráfico + reglas de firewall + VPN/interconexión + router | Acceso a bases de datos | Necesaria al momento de la ejecución, para leer cambios de la base de datos de origen a replicar en el destino |
Dataproc (tu proyecto) | Cloud Storage | No | API de Cloud | VPC‑SC | IAM | Administración de estado: Desplazamientos, estados de replicación |
Dataproc (tu proyecto) | BigQuery | No | API de Cloud | VPC‑SC | IAM | Es necesario en el momento de la ejecución para aplicar cambios de la base de datos de origen a el objetivo |
¿Qué sigue?
- Consulta la referencia de la API de replicación.
- Consulta las asignaciones de tipos de datos para replicación.