Amazon EMR
Dễ dàng chạy và mở rộng quy mô Apache Spark, Trino và các khối lượng công việc dữ liệu lớn khác
Tại sao Amazon EMR?
Amazon EMR là một dịch vụ xử lý dữ liệu lớn giúp tăng tốc khối lượng công việc phân tích với tính linh hoạt và quy mô chưa từng có. EMR có tính năng chạy tối ưu hóa hiệu suất cho Apache Spark, Trino, Apache Flink và Apache Hive, cắt giảm đáng kể chi phí và thời gian xử lý. Dịch vụ tích hợp liền mạch với AWS, đơn giản hóa quy trình công việc hồ dữ liệu và kiến trúc quy mô doanh nghiệp. Với khả năng tự động mở rộng quy mô, giám sát thông minh và cơ sở hạ tầng được quản lý tích hợp, EMR cho phép bạn tập trung vào việc trích xuất thông tin chi tiết — chứ không phải quản lý cụm — cung cấp phân tích quy mô petabyte hiệu quả mà không cần chi phí hoạt động của các giải pháp truyền thống.
Tùy chọn triển khai linh hoạt
Tại sao nên chọn EMR phi máy chủ?
Amazon EMR Serverless giúp các nhà phân tích dữ liệu và kỹ sư dễ dàng chạy các khung phân tích dữ liệu lớn nguồn mở như Apache Spark mà không cần cấu hình, quản lý và mở rộng các cụm hoặc máy chủ. EMR Serverless là cách nhanh nhất để bắt đầu với tất cả các tính năng và lợi ích của Amazon EMR mà không cần các chuyên gia lập kế hoạch và quản lý các cụm.
Tại sao Amazon EMR trên Amazon EC2?
Amazon EMR trên Amazon EC2 cung cấp quyền kiểm soát cấu hình cụm và hỗ trợ các cụm chạy lâu dài, làm cho nó trở nên hoàn hảo cho các tác vụ xử lý dữ liệu liên tục yêu cầu thiết lập phần cứng cụ thể. Bạn có thể cài đặt các ứng dụng tùy chỉnh cùng với các framework phổ biến như Apache Spark và Trino, đồng thời cung cấp một loạt các loại phiên bản EC2 để tối ưu hóa cả chi phí và hiệu suất. Tích hợp với các dịch vụ AWS khác và khả năng sử dụng Phiên bản Spot làm cho nó trở thành một giải pháp hiệu quả về chi phí cho các tổ chức yêu cầu kiểm soát chi tiết đối với các hoạt động dữ liệu lớn của họ.
Tại sao Amazon EMR trên Amazon EKS?
Amazon EMR trên Amazon Elastic Kubernetes Service (EKS) cho phép bạn gửi công việc Apache Spark theo yêu cầu trên EKS mà không cần cung cấp các cụm EMR. Với EMR trên EKS, bạn có thể chạy khối lượng công việc phân tích của mình trên cùng một cụm Amazon EKS như các ứng dụng dựa trên Kubernetes khác để cải thiện việc sử dụng tài nguyên và đơn giản hóa việc quản lý cơ sở hạ tầng.
Xử lý dữ liệu của bạn với Amazon EMR trong thế hệ tiếp theo của Amazon SageMaker
Amazon EMR có sẵn trong thế hệ tiếp theo của Amazon SageMaker, cho phép bạn dễ dàng chạy Apache Spark, Trino và các khung phân tích nguồn mở khác trong môi trường phát triển dữ liệu và AI thống nhất.
Lợi ích
Amazon EMR kết hợp Apache Spark được tối ưu hóa hiệu suất để xử lý nhanh hơn, tiết kiệm chi phí với sự linh hoạt trong việc lựa chọn các loại phiên bản, bao gồm Phiên bản Spot, và mở rộng tự động được quản lý hoàn toàn giúp kích thước phù hợp với cụm — loại bỏ việc cung cấp quá mức và giảm chi phí tổng thể.
Amazon EMR nhanh hơn 5,4 lần so với Apache Spark mã nguồn mở trong khi vẫn duy trì khả năng tương thích API. Nó cho phép khách hàng triển khai các framework mã nguồn mở mà họ lựa chọn — Apache Spark, Trino, Apache Flink hoặc Apache Hive. EMR hỗ trợ các định dạng bảng mở phổ biến như Iceberg, Hudi và Delta để tăng tốc thời gian thấu hiểu.
EMR cung cấp sự lựa chọn trong triển khai, bao gồm EMR Serverless để xử lý được quản lý hoàn toàn, không có cơ sở hạ tầng, EMR trên EC2 để kiểm soát cụm chi tiết và EMR trên EKS cho khối lượng công việc dữ liệu lớn gốc của Kubernetes. Cho dù chạy các cụm ngắn hạn cho các công việc theo yêu cầu hay cụm chạy dài hạn cho các tác vụ liên tục, EMR thích ứng với nhu cầu hoạt động của bạn đồng thời tối ưu hóa chi phí thông qua phân bổ tài nguyên linh hoạt và mở rộng hiệu quả.
Amazon EMR trong thế hệ tiếp theo của Amazon SageMaker cho phép bạn chạy các framework mã nguồn mở như Apache Spark, Trino và Apache Flink, cho phép bạn mở rộng khối lượng công việc phân tích một cách dễ dàng — tất cả mà không cần cung cấp hoặc quản lý cơ sở hạ tầng. Với khả năng của EMR trong Amazon SageMaker, bạn có thể thống nhất việc xử lý dữ liệu và phát triển mô hình, cho phép quy trình làm việc đầu cuối từ chuyển đổi dữ liệu thô đến triển khai AI trong một môi trường hợp tác duy nhất.
Chuyển đổi các bản nâng cấp Apache Spark kéo dài hàng tháng thành các dự án hiệu quả kéo dài một tuần thông qua tự động hóa thông minh. Tác nhân nâng cấp Spark hợp lý hóa việc di chuyển quy mô doanh nghiệp bằng cách tự động phân tích và xác thực các thay đổi API trên toàn bộ cơ sở mã của bạn, giảm đáng kể cả chi phí và độ phức tạp.