- Điện toán đám mây là gì?›
- Trung tâm khái niệm về điện toán đám mây›
- Cơ sở dữ liệu›
- Nền tảng tích hợp dữ liệu là gì?
Nền tảng tích hợp dữ liệu là gì?
Nền tảng tích hợp dữ liệu là gì?
Các tổ chức hiện đại tạo và sử dụng dữ liệu trên từ hàng chục đến hàng nghìn hệ thống và định dạng. Tích hợp dữ liệu là quá trình kết hợp dữ liệu từ nhiều hệ thống và định dạng khác nhau rồi chuẩn hóa để dữ liệu trở nên hữu ích hơn. Với dữ liệu đã tích hợp, bạn có thể truy cập chế độ xem đơn lẻ hợp nhất của tất cả dữ liệu nhằm mục đích hỗ trợ quyết định và báo cáo, tiến hành phân tích dữ liệu, từ đó giúp việc đưa ra quyết định trở nên sáng suốt hơn.
Các công ty cần dữ liệu hợp nhất để hỗ trợ phân tích kinh doanh, tùy chỉnh mô hình máy học cũng như cho các ứng dụng doanh nghiệp và quy trình kinh doanh khác. Tích hợp dữ liệu liên quan đến thu thập, chuyển đổi và hợp nhất dữ liệu thô để các doanh nghiệp có thể hưởng lợi từ dạng tập hợp của dữ liệu đó. Ví dụ: Dữ liệu từ giao dịch, số và loại tài khoản cũng như hồ sơ dịch vụ khách hàng giúp tạo ra chế độ xem hợp nhất về dữ liệu khách hàng cho ngân hàng.
Quá trình tích hợp dữ liệu là gì?
Các tổ chức hiểu được lợi ích của việc tích hợp dữ liệu để tăng hiệu quả cho quy trình làm việc. Việc định nghĩa quy trình tích hợp dữ liệu giúp các tổ chức tạo ra kết quả đầu ra đáng tin cậy hơn và có thể lặp lại.
1. Xác định các nguồn dữ liệu khác nhau
Xác định các nguồn dữ liệu sẽ cần tích hợp, theo cách tự động hoặc thủ công. Các tổ chức tạo và lưu trữ dữ liệu trên nhiều loại hệ thống và định dạng dữ liệu khác nhau. Ví dụ: Một tổ chức có thể sử dụng nhiều loại cơ sở dữ liệu SQL, bộ nhớ đệm và kho tài liệu. Các ứng dụng trong tổ chức có thể lưu trữ dữ liệu ở các định dạng độc quyền mà không cần truy cập thẳng dữ liệu bên ngoài.
2. Xác định chiến lược tích hợp
Xem xét các định dạng và loại kho lưu trữ dữ liệu liên quan, cùng với các yêu cầu từ tổ chức của bạn, để xác định phương thức tốt nhất cho việc trích xuất và chuyển đổi dữ liệu thành định dạng chuẩn hóa. Dưới đây là một số chiến lược tích hợp dữ liệu phổ biến:
- Kiểu mẫu Trích xuất, chuyển đổi, tải (ETL) sẽ trích xuất dữ liệu từ các hệ thống hiện tại, chuyển đổi dữ liệu và tải dữ liệu vào hệ thống đích. ETL là kiểu mẫu phổ biến cho kiểu lưu trữ dữ liệu trongkho dữ liệu.
- Kiểu mẫu Trích xuất, tải, chuyển đổi (ELT) sẽ trích xuất dữ liệu từ các hệ thống hiện tại, tải dữ liệu vào hệ thống đích và chuyển đổi dữ liệu. ELT cho phép giữ lại dữ liệu ở dạng phi cấu trúc cho đến khi bạn cần lấy dữ liệu này ra để phân tích. ELT là kiểu mẫu phổ biến cho kiểu lưu trữ trong hồ dữ liệu.
- Tải nhập truyền phát theo thời gian thực sẽ thu thập dữ liệu từ các luồng truyền phát và thực hiện tải nhập dữ liệu để tích hợp dữ liệu gần như theo thời gian thực.
- Ghi nhận thay đổi dữ liệu (CDC) là quá trình khám phá các thay đổi đối với dữ liệu và xuất các thay đổi này vào luồng sự kiện để tải nhập dữ liệu.
Trong giai đoạn này, bạn cũng sẽ cần xác định hệ thống kho lưu trữ hoặc kho dữ liệu đích, ví dụ như kho dữ liệu hay hồ dữ liệu.
3. Thiết kế lược đồ
Phác thảo lược đồ dữ liệu hoặc loại kho lưu trữ không lược đồ, cho trạng thái cuối cùng của dữ liệu. Lược đồ phải có khả năng mở rộng, có thể lập phiên bản và phù hợp với kỳ vọng lưu trữ dữ liệu của doanh nghiệp. Lược đồ mới phải duy trì chất lượng dữ liệu và độ chính xác của dữ liệu, với các quy tắc quản trị dữ liệu tương ứng để tích hợp trong tương lai.
4. Trích xuất dữ liệu
Xác định các phương thức tốt nhất để trích xuất dữ liệu nhằm giảm thiểu sự gián đoạn đối với hoạt động kinh doanh. Ví dụ: Nhiều tổ chức sử dụng hình thức trích xuất hàng loạt sau khi kết thúc hoạt động kinh doanh mỗi ngày để tích hợp dữ liệu không theo thời gian thực. Các tổ chức có thể cần sử dụng API để trích xuất dữ liệu nhằm tích hợp ứng dụng độc quyền hoặc sử dụng các dịch vụ như Amazon AppFlow để truyền dữ liệu giữa các ứng dụng phần mềm dưới dạng dịch vụ (SaaS) và đám mây.
5. Di chuyển dữ liệu vào kho tập trung
Chuyển dữ liệu vào kho tập trung. Đôi khi, nguồn và đích đến của dữ liệu nằm ở các vị trí khác nhau, ví dụ: di chuyển dữ liệu từ cơ sở hạ tầng tại chỗ lên đám mây. Việc di chuyển dữ liệu có thể cần áp dụng thêm biện pháp bảo mật, tăng cường băng thông hoặc cân nhắc thêm về vị trí lưu dữ liệu.
6. Chuyển đổi dữ liệu
Dữ liệu có thể cần được chuyển đổi thành dạng cuối cùng trong kho tập trung. Việc chuyển đổi dữ liệu có thể không chỉ đơn thuần là thay đổi định dạng, ví dụ: tính mức trung bình từ nhiều điểm dữ liệu.
Tích hợp dữ liệu phi máy chủ là gì?
Các doanh nghiệp đang chuyển đổi quy trình công việc dữ liệu của mình từ cơ sở hạ tầng tại chỗ sang nền tảng dữ liệu đám mây hiện đại. Kiến trúc đám mây giúp các tổ chức vượt qua hạn chế về phần cứng vật lý và cung cấp các dịch vụ phân tích dữ liệu đám mây tiên tiến, có thể tích hợp trên đám mây, ví dụ như trí tuệ doanh nghiệp và AI.
Phi máy chủ là khái niệm về điện toán đám mây, cung cấp dịch vụ trên nền tảng đám mây hoàn toàn linh hoạt, có khả năng chịu lỗi và loại bỏ sự phức tạp của việc cấp phát máy chủ. Theo truyền thống, khi tạo quy trình xử lý dữ liệu, bạn cần cung cấp và duy trì các máy chủ và dịch vụ mã để tải nhập, chuyển đổi và thao tác dữ liệu. Với sản phẩm tích hợp dữ liệu phi máy chủ, bạn có khả năng điều chỉnh quy mô đầy đủ mà không tốn chi phí quản lý. Các công việc sẽ chạy cho đến khi hoàn thành, còn dịch vụ ở trạng thái không hoạt động cho đến khi cần sử dụng vào lần tiếp theo.
Phi máy chủ là rất hữu ích cho các công việc tích hợp dữ liệu theo nhu cầu, với mô hình thanh toán theo mức sử dụng, có thể giúp giảm chi phí cơ sở hạ tầng cho các công ty.
Ví dụ: AWS Glue là giải pháp tích hợp dữ liệu phi máy chủ. AWS Glue giúp bạn khám phá và kết nối với hơn 100 nguồn dữ liệu đa dạng, quản lý dữ liệu trong danh mục dữ liệu tập trung, đồng thời tạo, chạy và giám sát quy trình xử lý dữ liệu một cách trực quan khi tải dữ liệu vào hồ dữ liệu, kho dữ liệu và lakehouse.
Với AWS Glue, bạn có thể sử dụng công cụ tích hợp dữ liệu thích hợp cho bất kỳ khối lượng công việc nào, tùy vào đặc điểm của khối lượng công việc và tùy chọn của nhà phát triển cũng như nhà phân tích. Các công việc AWS Glue có thể được gọi theo lịch trình, theo nhu cầu hoặc dựa trên sự kiện.
Tích hợp dữ liệu ETL phi máy chủ với AWS Glue
Để bắt đầu sử dụng AWS Glue, hãy khởi động bảng điều khiển AWS Glue Studio. Trước khi bắt đầu sử dụng AWS Glue, hãy thiết lập các chính sách và vai trò IAM cần thiết trong bảng điều khiển.
Bước 1 – Thêm định nghĩa bảng vào Danh mục dữ liệu AWS Glue
Điều hướng đến Danh mục dữ liệu. Chọn Thêm bảng bằng trình tìm kéo và chọn kho dữ liệu nguồn mà bạn muốn tìm kéo dữ liệu để cung cấp ánh xạ dữ liệu của lược đồ và siêu dữ liệu, nhằm tạo định nghĩa và bảng dữ liệu trong Danh mục dữ liệu.
Bước 2 – Định nghĩa công việc chuyển đổi của bạn
Chọn công việc ETL từ khung điều hướng rồi chọn Tạo công việc bằng ETL trực quan. Thêm nút nguồn dữ liệu và đích dữ liệu trong trình soạn thảo trực quan và định cấu hình dữ liệu. Glue Studio tạo ra mã trong tab Tập lệnh sẽ chuyển đổi dữ liệu trong bảng nguồn thành lược đồ của bảng đích.
Bước 3 – Chạy công việc AWS Glue
Bạn có thể thiết lập thông số để chạy công việc bằng công cụ quản trị dữ liệu trong tab chi tiết Công việc. Khi đã định cấu hình các thông số, hãy chọn Lưu, rồi chọn Chạy để khởi chạy quy trình dữ liệu phục vụ chuyển đổi và tích hợp.
Bước 4 – Kiểm tra kết quả đầu ra
Trong tab Trực quan, hãy chọn nút đích để xem trước dữ liệu nhằm đảm bảo rằng dữ liệu trong nút là chính xác.
Để biết thêm thông tin, hãy tham khảo AWS Glue: Hướng dẫn sử dụng.
Tích hợp không ETL là gì?
Tích hợp không ETL là tập hợp các tích hợp giúp giảm thiểu nhu cầu xây dựng quy trình dữ liệu ETL. Thông thường, khi truyền dữ liệu từ nguồn đến đích của dữ liệu, bạn sẽ tạo, định cấu hình và chạy một quy trình ETL. Tuy nhiên, với phương thức tích hợp dữ liệu không ETL, quy trình ETL được tự động hóa và ẩn trong quy trình phần mềm.
Sau khi tải dữ liệu từ nguồn đến đích lần đầu tiên, các lần sao chép dữ liệu tiếp theo sẽ tự động diễn ra mỗi khi dữ liệu trong nguồn được cập nhật. Quy trình không ETL này cho phép sử dụng quy trình phân tích gần như theo thời gian thực.
AWS có nhiều dịch vụ hỗ trợ tích hợp không ETL, bao gồm Amazon Redshift, Amazon RDS dành cho MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Dịch vụ OpenSearch của Amazon, Amazon Security Lake và Amazon Aurora.
Tích hợp không ETL với Amazon Redshift và Amazon Aurora
Amazon Redshift là kho dữ liệu đám mây cho phép các doanh nghiệp điều chỉnh quy mô khối lượng công việc phân tích của mình với chi phí phải chăng. Còn Amazon Aurora là cơ sở dữ liệu quan hệ hiệu năng cao tương thích với MySQL và PostgreSQL.
Bước 1 – Định cấu hình nguồn tích hợp
Xác minh rằng cơ sở dữ liệu Amazon Aurora của bạn có hỗ trợ tích hợp không ETL với Amazon Redshift. Tại thời điểm hiện tại, Amazon Redshift hỗ trợ các loại tích hợp không ETL sau đây với Amazon Aurora.
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
Định cấu hình ghi nhị phân trong Aurora để đảm bảo rằng bạn ghi nhận các thay đổi dữ liệu để sao chép. Chọn tùy chọn mã hóa cho dữ liệu đang được lưu trữ và đang được truyền để đáp ứng các yêu cầu bảo mật. Cuối cùng, thiết lập các chính sách và vai trò IAM cần thiết để cấp quyền cho tích hợp với Amazon Redshift.
Amazon Redshift cũng hỗ trợ tích hợp không ETL với Amazon RDS dành cho MySQL, Amazon DynamoDB và các ứng dụng như Salesforce, SAP, ServiceNow và Zendesk.
Bước 2 – Định cấu hình đích đến
Nếu bạn không có, hãy khởi chạy cụm Redshift mới có cấu hình lưu trữ và điện toán thích hợp. Đảm bảo rằng cụm Amazon Redshift có cài đặt quyền truy cập mạng và mã hóa cần thiết. Sửa đổi các nhóm bảo mật và cài đặt VPC để cho phép kết nối giữa Aurora và Redshift.
Bước 3 – Xác thực tích hợp
Amazon Redshift tiến hành lần tải dữ liệu ban đầu từ Amazon Aurora. Sau đó, dịch vụ này sẽ tự động giám sát nguồn và sao chép dữ liệu được cập nhật theo thời gian thực. Bạn có thể chạy truy vấn trong Amazon Redshift để xác minh rằng dữ liệu khớp với nguồn.
AWS có thể hỗ trợ nhu cầu tích hợp dữ liệu của bạn như thế nào?
Tích hợp dữ liệu là chìa khóa để cung cấp cho doanh nghiệp bức tranh toàn cảnh về dữ liệu từ nhiều nguồn dữ liệu, phục vụ việc trực quan hóa và phân tích nâng cao. Quản lý quy trình tích hợp phức tạp trên các nguồn dữ liệu phi cấu trúc, bán cấu trúc và có cấu trúc đang phát triển có thể là công việc rất khó khăn. Việc tích hợp dữ liệu đám mây sẽ giúp đơn giản hóa quy trình quản lý dữ liệu bằng các công cụ và dịch vụ tích hợp dữ liệu tiê tiến, ví dụ như phi máy chủ và không ETL. Hãy khám phá các dịch vụ AWS đáp ứng nhu cầu tích hợp dữ liệu hiện đại tại đây.