- Análisis›
- Amazon SageMaker›
- Arquitectura de almacén de lago
La arquitectura de almacén de lago de Amazon SageMaker
Simplificación del análisis y la IA con una arquitectura de datos unificada, abierta y segura
Información general
La próxima generación de Amazon SageMaker se basa en una arquitectura de almacén de lago abierta y totalmente compatible con Apache Iceberg. Unifique todos los datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3), incluido S3 Tables, y los almacenes de datos de Amazon Redshift, con el fin de crear potentes aplicaciones de análisis e inteligencia artificial y machine learning en una sola copia de los datos. Conecte datos de orígenes adicionales mediante integraciones sin ETL con bases de datos y aplicaciones operativas, federación de consultas con orígenes de datos y federación de catálogos para tablas remotas de Apache Iceberg. Obtenga flexibilidad para acceder a los datos y consultarlos en el lugar con todas las herramientas y los motores compatibles con Iceberg. Proteja sus datos mediante la definición de controles de acceso integrados que se aplican en todas las herramientas y los motores de análisis y machine learning.
Véalo en acción
Descubra cómo puede acceder a datos unificados de lagos de datos de S3, S3 Tables y almacenes de datos de Redshift en un almacén de lago de datos abierto y seguro.
Beneficios
Unifique todos los datos en los lagos de datos de Amazon S3, inclusive S3 Tables, y los almacenes de datos de Amazon Redshift. Reúna sus datos de aplicaciones y bases de datos operativas en el almacén de lago casi en tiempo real mediante integraciones sin ETL. Acceda a los datos y consúltelos en el lugar en orígenes de datos de terceros a través de capacidades de federación de consultas. Además, obtenga acceso directo, seguro y rentable a las tablas de Apache Iceberg almacenadas en S3 y registradas en catálogos remotos, desde los motores de análisis de AWS hasta la federación de catálogos.
Obtenga la flexibilidad de acceder a sus datos y consultarlos in situ con todas las herramientas y motores analíticos compatibles con Apache Iceberg, como SQL, Apache Spark, inteligencia empresarial y herramientas de inteligencia artificial (IA) y machine learning, para acceder a datos unificados en su almacén de lago.
Proteja todos los datos con controles de acceso detallados e integrados a nivel de tabla, columna o celda, y aplique esos permisos en todas sus herramientas y motores de análisis. Utilice políticas de acceso basadas en etiquetas, atributos o roles para cumplir con sus requisitos de seguridad. Comparta datos en toda su organización sin crear copias.
Casos de uso
Unifique todos sus datos en los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift para sus iniciativas de análisis e IA con una sola copia de los datos. Con los controles de acceso integrados, puede definir permisos detallados y compartir de forma segura una única copia de los datos en toda la organización.
Acceda a datos casi en tiempo real en las bases de datos y aplicaciones operativas mediante integraciones sin ETL. Acceda a sus datos y consúltelos en su ubicación, desde una amplia gama de servicios de AWS y herramientas y motores de código abierto y de terceros compatibles con Apache Iceberg.
Reúna los datos existentes de varios almacenes de datos de Amazon Redshift en el almacén de lago para consultar y unir los datos almacenados en grupos de trabajo y clústeres de Amazon Redshift. Escale sus cargas de trabajo para los procesos de extracción, transformación y carga (ETL), los informes de inteligencia empresarial y el análisis según sea necesario sin administrar varios recursos compartidos de datos.
Clientes
Lennar
«Hemos pasado los últimos dieciocho meses trabajando con AWS para transformar nuestra base para los datos y utilizar las mejores soluciones de su clase, que además son rentables. Con avances como Amazon SageMaker Unified Studio y Almacén de lago de Amazon SageMaker, esperamos acelerar nuestra velocidad de entrega mediante un acceso sin interrupciones a los datos y los servicios, lo que permitirá a nuestros ingenieros, analistas y científicos obtener información que aporte un valor importante a nuestra empresa».
Lee Slezak, vicepresidente sénior de Datos y Análisis de Lennar
Roche
Roche es una empresa pionera mundial en productos farmacéuticos y diagnósticos cuyo objetivo es hacer avanzar la ciencia para mejorar la vida de las personas.
«Hemos estado utilizando Amazon Redshift para obtener información sobre datos estructurados y semiestructurados de todos nuestros repositorios de datos. El nuevo Almacén de lago de Amazon SageMaker me entusiasma por su potencial para mejorar y unificar el acceso a los lagos de datos y a otros orígenes de datos con servicios como Amazon Redshift, el Catálogo de datos de AWS Glue y AWS Lake Formation. Esta innovación permitirá a nuestros equipos de datos e ingeniería simplificar el acceso a los datos, lo que fomentará la interoperabilidad entre las cargas de trabajo de datos, análisis y aplicaciones. Preveo una reducción notable de los errores de datos gracias a una menor copia de los mismos, una disminución del 40 % en el tiempo de procesamiento, una reescritura más rápida del análisis de los datos en los sistemas transaccionales para mejorar la toma de decisiones, y la posibilidad de que nuestros equipos se centren en crear valor empresarial».
Yannick Misteli, jefe de ingeniería de Estrategia Global de Productos de Roche
Idealista
Idealista apoya a agentes inmobiliarios y particulares en todo el sur de Europa al proporcionar una plataforma de anuncios clasificados inmobiliarios en línea.
«Nuestro objetivo es agilizar el acceso a los datos de Salesforce para mejorar el análisis en nuestro lago de datos. Al aprovechar la nueva característica de compatibilidad del Almacén de lago de Amazon SageMaker para integraciones sin ETL desde las aplicaciones, podemos simplificar los procesos de extracción e ingesta de datos, eliminando la necesidad de varios ETL para acceder directamente a Salesforce. Este enfoque centralizado reduce la complejidad y mejora significativamente la eficiencia de la administración de datos. Prevemos un ahorro de tiempo significativo en el desarrollo de la extracción e ingesta de datos, lo que permitirá a nuestro equipo enfocarse en la obtención de información útil a partir de nuestros datos en lugar de administrar la recopilación».
Javier Monterrubio, gerente de Ingeniería de Plataformas de Datos, Idealista
Carrier
«En Carrier, la próxima generación de Amazon SageMaker transforma nuestra estrategia de datos empresariales al simplificar la forma en que creamos y escalamos los productos de datos. El enfoque de SageMaker Unified Studio para la detección, el procesamiento y el desarrollo de modelos de datos ha acelerado de forma considerable nuestra implementación de almacenes de lagos. Lo más impresionante es que su integración fluida con nuestro catálogo de datos existente y los controles de gobernanza integrados nos permite democratizar el acceso a los datos, al mismo tiempo que mantenemos los estándares de seguridad, lo que ayuda a nuestros equipos a ofrecer con rapidez soluciones avanzadas de análisis e IA en toda la empresa».
Socios
Tableau
Tableau ayuda a las personas y las organizaciones a centrarse más en los datos.
«La asociación entre Amazon y Salesforce Tableau representa un compromiso compartido con la innovación y el éxito de los clientes. A través de la nueva integración sin ETL de Amazon, combinamos los datos y el análisis basados en la inteligencia artificial de Tableau con la potente infraestructura de datos de Amazon para transformar la forma en que las organizaciones obtienen información de sus datos. Esta integración perfecta permite a nuestros clientes obtener información de todos sus datos estructurados y no estructurados utilizando la potencia del Almacén de lago de Amazon SageMaker y Amazon Redshift, lo que reduce drásticamente la complejidad de la ingeniería y el tiempo de despliegue. Juntos, Tableau y Amazon ayudan a los clientes a acelerar la transformación digital e impulsar el valor empresarial a escala».
Ali Tore, vicepresidente sénior de Análisis Avanzados de Tableau
Dbt Labs
Dbt Labs tiene la misión de ayudar a los analistas a crear y difundir el conocimiento organizacional.
«Durante mucho tiempo, hemos sido el estándar de transformación además de Amazon Redshift, ya que ofrecemos flexibilidad, colaboración y confianza. Con el nuevo Almacén de lago de Amazon SageMaker, nos complace hacer llegar este valor a más clientes e incluso a más datos en el entorno de AWS. Ahora, los clientes pueden acceder a todos sus datos en el sistema de AWS, incluidos los almacenes de datos y los lagos de datos. Nos entusiasma unir nuestras capacidades con el nuevo Amazon SageMaker para ofrecer optimización de datos, catalogación y gobernanza a nuestros clientes en común».
Shawn Toldo, vicepresidente de Asociaciones, Dbt Labs
Informatica
Informatica, líder en la gestión de datos en la nube basada en la IA empresarial, da vida a los datos y la IA al permitir a las empresas aprovechar el poder transformador de sus activos más críticos.
«Nuestra plataforma Intelligent Data Management Cloud (IDMC) y Amazon SageMaker ayudan a las organizaciones a aprovechar el potencial de los datos y fomentar la innovación y la eficiencia. Como socio de lanzamiento del Almacén de lago de Amazon SageMaker, nos enorgullece ofrecer una solución de nivel empresarial que cumple con los altos estándares de las organizaciones modernas basadas en datos. Junto con la infraestructura de AWS, logramos tomas de decisiones más rápidas e informadas para obtener resultados impactantes en todos los sectores».
Pratik Parekh, vicepresidente sénior de Gestión de Productos de Informatica