亚马逊AWS官方博客

Category: AWS Big Data

使用 Serverless 架构快速构建基于 Iceberg 的事务型实时数据湖

目前大部分使用数据湖技术的场景,需要托管大规模的大数据集群,例如 Kafka 集群,Hadoop 集群等等,但是,由于集群的运维复杂度和资源弹性管理需要投入大量的人力。并且如果需要实现从数据库到数据湖的实时同步,需要对数据库事务性的数据变更进行单独的处理,才能够使得数据库与数据湖之间数据保持一致性。因此,本文提出基于 AWS 中相关的 Serverless 服务来构建数据湖,该方案主要利用 AWS 中 MSK Connect,MSK Serverless,Glue,Athena 来构建无服务的数据湖方案。