Saltar al contenido principal

¿Qué es una plataforma de integración de datos?

¿Qué es una plataforma de integración de datos?

Las organizaciones modernas crean y utilizan datos en decenas o miles de sistemas y formatos. La integración de datos hace referencia al proceso de combinar datos de diferentes sistemas y formatos y normalizarlos para que los datos sean más útiles. Con los datos integrados, puede acceder a una vista única y unificada de todos los datos para respaldar la toma de decisiones y generar informes, analizar los datos y, en consecuencia, estar más informado para la toma de decisiones.

Las empresas necesitan datos consolidados para respaldar el análisis empresarial, personalizar los modelos de machine learning y para otras aplicaciones y procesos empresariales. La integración de datos implica la recopilación, transformación y consolidación de datos sin procesar para que las empresas puedan beneficiarse de su forma colectiva. Por ejemplo, los datos de las transacciones, la cantidad y el tipo de cuentas y los registros de servicio al cliente ayudan a crear una vista unificada de los datos de los clientes de un banco.

¿Qué es el proceso de integración de datos?

Las organizaciones comprenden las ventajas de la integración de datos para lograr flujos de trabajo más productivos. Definir el proceso de integración de datos ayuda a las organizaciones a producir resultados más fiables y repetibles. 

1. Identificar los diferentes orígenes de datos

Identifique los múltiples orígenes de datos que deberán integrarse, ya sea de forma automática o manual. Las organizaciones crean y almacenan datos en muchos tipos diferentes de sistemas y formatos de datos. Por ejemplo, una organización puede usar varios tipos de bases de datos SQL, cachés de memoria y almacenes de documentos. Las aplicaciones de la organización pueden almacenar datos en formatos propietarios sin acceso directo a los datos externos.

2. Determinar la estrategia de integración

Examine el almacenamiento y los formatos de datos pertinentes, junto con los requisitos de su organización, para determinar las mejores formas de extraer y transformar los datos en un formato normalizado. Estas son algunas estrategias comunes de integración de datos:

  • El patrón de extracción, transformación y carga (ETL) extrae datos de los sistemas actuales, los transforma y los carga en el sistema de destino. ETL es un patrón común para el almacenamiento en almacenes de datos.
  • El patrón de extracción, carga y transformación (ELT) extrae datos de los sistemas actuales, los carga en el sistema de destino y los transforma. ELT permite dejar los datos en forma no estructurada hasta que los necesite para el análisis. ELT es un patrón común para el almacenamiento en lagos de datos.
  • La ingesta de streaming en tiempo real captura los datos de los flujos y realiza la ingesta de datos para una integración de datos casi en tiempo real.
  • La captura de datos de cambios (CDC) es el proceso de detectar cambios en los datos y publicar estos cambios en un flujo de eventos para la ingesta de datos.

En esta etapa, también tendrá que determinar el sistema de almacenamiento o el repositorio de datos de destino; por ejemplo, un almacén de datos o un lago de datos.

3. Diseñar el esquema

Describa el esquema de datos (o el tipo de almacenamiento sin esquema) para el estado final de los datos. El esquema debe ser ampliable y versionable y debe ajustarse a las expectativas de almacenamiento de datos empresariales. El nuevo esquema debe preservar la calidad y precisión de los datos, con las correspondientes reglas de gobernanza de datos para la integración futura.

4. Extraer los datos

Determine los mejores métodos de extracción de datos para minimizar las interrupciones en las operaciones empresariales. Por ejemplo, muchas organizaciones utilizan la extracción por lotes cada día después del cierre de las operaciones para integrar los datos que no son en tiempo real. Las organizaciones podrían tener que usar las API para extraer datos para la integración de aplicaciones propietarias o usar servicios como Amazon AppFlow para transferir datos entre las aplicaciones de software como servicio (SaaS) y la nube.

5. Mover los datos a un almacén centralizado

Transporte los datos a un almacén centralizado. A veces, el origen de datos y su destino se encuentran en ubicaciones diferentes; por ejemplo, al mover datos de las instalaciones a la nube. El movimiento de datos puede requerir medidas de seguridad adicionales, ancho de banda adicional o consideraciones en materia de residencia de datos.

6. Transformar los datos

Es posible que los datos se tengan que transformar en su formato final en el almacén centralizado. La transformación de los datos puede ser más que un cambio de formato; por ejemplo, puede implicar el cálculo de un promedio a partir de varios puntos de datos.

¿Qué es la integración de datos sin servidor?

Las empresas están cambiando sus flujos de trabajo de datos de infraestructuras en las instalaciones a plataformas de datos en la nube modernas. Las arquitecturas en la nube ayudan a las organizaciones a superar las limitaciones del hardware físico y ofrecen servicios de análisis de datos en la nube avanzados e integrables, como inteligencia empresarial e IA. 

La tecnología sin servidor es un concepto de computación en la nube que proporciona servicios en la nube totalmente elásticos y tolerantes a errores y elimina las complejidades del aprovisionamiento de servidores. Tradicionalmente, al crear una canalización de datos, se aprovisionan y mantienen servidores y servicios de código para la ingesta, transformación y manipulación de los datos. Con un producto de integración de datos sin servidor, tiene una escalabilidad total sin la sobrecarga de administración. Los trabajos se ejecutan hasta su finalización y el servicio vuelve a permanecer inactivo hasta que vuelva a ser necesario.

La tecnología sin servidor es útil para los trabajos de integración de datos bajo demanda, con un modelo de pago por uso que puede ayudar a reducir los costos de infraestructura para las empresas. 

Por ejemplo, AWS Glue es una solución de integración de datos sin servidor. AWS Glue lo ayuda a detectar y conectarse a más de 100 orígenes de datos, administrar los datos en un catálogo centralizado y crear, ejecutar y supervisar visualmente canalizaciones para cargarlos en lagos de datos, almacenes de datos y almacenes tipo lago. 

Con AWS Glue, puede utilizar el motor de integración de datos apropiado para cualquier carga de trabajo, según las características de su carga de trabajo y las preferencias de sus desarrolladores y analistas. Los trabajos de AWS Glue pueden invocarse de acuerdo con un programa, bajo demanda o en función de un evento.

Integración de datos de ETL sin servidor con AWS Glue

Para empezar a usar AWS Glue, inicie la consola de AWS Glue Studio. Antes de empezar a usar AWS Glue, configure las políticas y roles de IAM necesarios en la consola.

Paso 1: Adición de las definiciones de tablas al Catálogo de datos de AWS Glue

Desplácese hasta el Catálogo de datos. Seleccione “Agregar tabla mediante un rastreador” y elija los almacenes de datos de origen que desea rastrear para proporcionar una asignación de datos de sus esquemas y metadatos a fin de crear definiciones de datos y tablas en el Catálogo de datos.

Paso 2: Definición del trabajo de transformación

Seleccione “Trabajos de ETL” en el panel de navegación y seleccione “Crear trabajo con ETL visual”. Agregue los nodos de origen de datos y destino de datos en el editor visual y configure los datos. Glue Studio genera el código en la pestaña “Script”, que transformará los datos de la tabla de origen en el esquema de la tabla de destino.

Paso 3: Ejecución del trabajo de AWS Glue

Puede establecer los parámetros para la ejecución del trabajo con las herramientas de gobernanza de datos de la pestaña “Detalles del trabajo”. Cuando haya configurado los parámetros, seleccione “Guardar” y, a continuación, seleccione “Ejecutar” para iniciar los procesos de datos para la transformación y la integración.

Paso 4: Examen de la salida

En la pestaña “Visual”, seleccione el nodo de destino para observar la vista previa de los datos y asegurarse de que haya datos precisos en el nodo.

Para obtener más información, consulte AWS Glue: User Guide.

¿Qué es la integración sin ETL?

La modalidad sin ETL es un conjunto de integraciones que minimiza la necesidad de crear canalizaciones de datos de ETL. Por lo general, las canalizaciones de ETL se crean, configuran y ejecutan al transferir datos de los orígenes de datos a los destinos. Sin embargo, con el método de integración de datos sin ETL, el proceso de ETL se automatiza y se oculta dentro de un proceso de software. 

Tras cargar los datos del origen al destino por primera vez, se produce automáticamente una mayor replicación de datos cada vez que se actualizan los datos del origen. Este proceso sin ETL permite ejecutar canalizaciones de análisis casi en tiempo real.

AWS cuenta con varios servicios compatibles con la modalidad sin ETL, como Amazon Redshift, Amazon RDS para MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake y Amazon Aurora

Integración sin ETL con Amazon Redshift y Amazon Aurora

Amazon Redshift es un almacén de datos en la nube que permite a las empresas escalar sus cargas de trabajo de análisis de forma asequible. Mientras tanto, Amazon Aurora es una base de datos relacional de alto rendimiento compatible con MySQL y PostgreSQL. 

Paso 1: Configuración del origen de la integración 

Compruebe que la base de datos de Amazon Aurora admita la integración sin ETL con Amazon Redshift. En el momento de redactar este artículo, Amazon Redshift admite las siguientes integraciones sin ETL con Amazon Aurora:

  • Amazon Aurora MySQL
  • Amazon Aurora PostgreSQL

Configure el registro binario en Aurora para asegurarse de capturar los cambios en los datos para la replicación. Elija las opciones de cifrado para los datos en reposo y en tránsito para cumplir con los requisitos de seguridad. Por último, configure las políticas y los roles de IAM necesarios para conceder los permisos de integración con Amazon Redshift.

Amazon Redshift también admite la modalidad sin ETL con Amazon RDS para MySQL, Amazon DynamoDB y aplicaciones como Salesforce, SAP, ServiceNow y Zendesk.

Paso 2: Configuración del destino

Si no tiene uno, lance un nuevo clúster de Redshift con las configuraciones de almacenamiento y computación adecuadas. Asegúrese de que el clúster de Amazon Redshift tenga la configuración de cifrado y acceso a la red necesaria. Modifique los grupos de seguridad y la configuración de VPC para permitir la conectividad entre Aurora y Redshift.

Paso 3: Validación de la integración

Amazon Redshift realiza una carga inicial de datos desde Amazon Aurora. Posteriormente, supervisa el origen automáticamente y replica los datos actualizados en tiempo real. Puede ejecutar consultas en Amazon Redshift para comprobar que los datos coincidan con el origen.

¿Cómo puede AWS satisfacer sus necesidades de integración de datos?

La integración de datos es clave a la hora de proporcionar a las empresas una imagen completa de los datos de varios orígenes de datos, lo que se utiliza en visualizaciones y análisis avanzados. Administrar las canalizaciones de integración complejas en orígenes de datos estructurados, semiestructurados y no estructurados en crecimiento puede resultar difícil. La integración de datos en la nube ayuda a simplificar los flujos de trabajo de administración de datos con herramientas y servicios innovadores de integración de datos, como la tecnología sin servidor y la modalidad sin ETL. Aquí puede descubrir los servicios de AWS que satisfacen las necesidades modernas de integración de datos.