Chuyển đến nội dung chính

Kho lưu trữ cơ sở dữ liệu là gì?

Kho lưu trữ cơ sở dữ liệu là gì?

Dữ liệu có thể được lưu trữ trong cơ sở dữ liệu để truy xuất và phân tích trong tương lai. Có nhiều tùy chọn kho lưu trữ cơ sở dữ liệu khác nhau với sự đánh đổi giữa quyền kiểm soát và tính linh hoạt. Hướng dẫn này xem xét nhiều mô hình kho lưu trữ khác nhau trên AWS và đưa ra hướng dẫn lựa chọn mô hình phù hợp nhất cho trường hợp sử dụng cụ thể của bạn.

Tất cả dữ liệu số phải được lưu trữ trên cùng thiết bị vật lý nào đó, ví dụ như trong RAM, bộ nhớ đệm, thanh ghi hoặc trên ổ đĩa thể rắn (SSD) hoặc ổ đĩa cứng (HDD), trên thiết bị lưu trữ gắn vào mạng (NAS) và mạng khu vực lưu trữ (SAN) hoặc trong các loại kho lưu trữ vật lý khác. Kho lưu trữ dữ liệu đám mây sử dụng thiết bị vật lý cơ sở chạy kho lưu trữ logic bằng cách sử dụng cơ chế ảo hóa bên trên.

Để hầu hết dữ liệu doanh nghiệp trở nên hữu ích, bạn phải lưu trữ dữ liệu đó trong cơ sở dữ liệu. Hệ thống quản lý cơ sở dữ liệu là lớp phần mềm nằm phía trên dữ liệu được lưu trữ. Lớp phần mềm này cho phép bạn thực hiện các thao tác như tạo cơ sở dữ liệu, truy vấn và phân tích dữ liệu, cập nhật và xóa dữ liệu. Phần mềm cơ sở dữ liệu có thể được lưu trữ tách biệt về mặt vật lý với dữ liệu.

Kho lưu trữ cơ sở dữ liệu quan hệ hoạt động như thế nào?

Cơ sở dữ liệu quan hệ lưu trữ dữ liệu ở định dạng bảng, bao gồm hàng và cột, trong đó, mỗi hàng đại diện cho một bản ghi và mỗi cột trong bản ghi đó là một thuộc tính. Cấu trúc dữ liệu của bảng cơ sở dữ liệu lưu trữ các bản ghi phổ biến, lặp lại và liên quan với nhau, ví dụ như thông tin chi tiết khách hàng hoặc hồ sơ mua hàng. Mỗi bảng có thể được liên kết với bảng khác dưới dạng mối quan hệ: một bản ghi mua hàng có thể có mối quan hệ với một khách hàng được liên kết.

Phần mềm cơ sở dữ liệu quan hệ chạy bên trên các bảng này có chức năng quản lý các liên kết bằng khóa chính và khóa ngoại. Phần mềm này cho phép người dùng thực hiện các thao tác tạo, đọc, cập nhật, xóa và ghi cũng như truy vấn dữ liệu trong bảng bằng Ngôn ngữ truy vấn có cấu trúc (SQL).

Việc lưu trữ cơ sở dữ liệu quan hệ và dữ liệu có cấu trúc cơ sở của cơ sở dữ liệu này phụ thuộc vào hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) được sử dụng để tạo cơ sở dữ liệu, vì các sản phẩm phần mềm khác nhau có phương pháp lưu trữ dữ liệu khác nhau. Ví dụ: SQL Server, MySQL, PostgreSQL, Oracle và MariaDB.

Kho lưu trữ cơ sở dữ liệu quan hệ được quản lý

AWS cung cấp kho lưu trữ cơ sở dữ liệu quan hệ được quản lý và các hệ điều hành lý cho nhiều hệ thống quản lý cơ sở dữ liệu quan hệ khác nhau. Lợi ích của việc sử dụng dịch vụ được quản lý bao gồm giảm thời gian dành cho công tác quản lý và bảo trì cơ sở hạ tầng và tăng cường khả năng bảo mật.

Amazon Relational Database Service

Amazon Relational Database Service (RDS) là dịch vụ được quản lý dành cho các hệ thống như PostgreSQL, MySQL, MariaDB, SQL Server, Oracle và Db2. Amazon RDS xử lý các tác vụ quản lý cơ sở dữ liệu, ví dụ như cung cấp, vá lỗi, sao lưu, khôi phục, phát hiện lỗi và sửa chữa, đồng thời dễ dàng thiết lập và triển khai.

Đối với kho lưu trữ, Amazon RDS cung cấp sự lựa chọn ba loại ổ đĩa Kho lưu trữ khối linh hoạt của Amazon (Amazon EBS) cơ sở khác nhau.

  • Kho lưu trữ dựa trên SSD đa dụng cho hầu hết các khối lượng công việc cơ sở dữ liệu,
  • Kho lưu trữ dựa trên SSD hiệu năng cao với IOPS được cung cấp và 
  • Kho lưu trữ dữ liệu từ tính để đảm bảo tương thích ngược.

Amazon Aurora

Amazon Aurora là dịch vụ được quản lý hoạt động trên đám mây dành cho cơ sở dữ liệu quan hệ PostgreSQL, MySQL và DSQL. Aurora được thiết kế để tối đa hóa toàn bộ lợi ích của cấu hình đám mây, bao gồm phân cụm và phân tán, cung cấp hiệu năng cao hơn, độ sẵn sàng cao và khả năng chịu lỗi so với các dịch vụ RDBMS dựa trên đám mây truyền thống.

Đối với kho lưu trữ, dữ liệu Amazon Aurora được lưu trữ trong ổ đĩa cụm, ổ đĩa ảo tùy chỉnh duy nhất dựa trên SSD, với dữ liệu này được sao chép ra ba Vùng sẵn sàng khác nhau trong một khu vực AWS để đảm bảo tính toàn vẹn dữ liệu và dự phòng dữ liệu tối đa. Amazon Aurora DSQL cung cấp khả năng dự phòng đa vùng để duy trì quyền truy cập vào dữ liệu khi điểm cuối khu vực không khả dụng. Vì là kho lưu trữ độc quyền, nên kho lưu trữ Aurora cung cấp cấu hình tùy chỉnh với khả năng tự động điều chỉnh quy mô và được AWS quản lý hoàn toàn, loại bỏ nhu cầu tùy chỉnh kho lưu trữ phía người dùng.

Kho lưu trữ cơ sở dữ liệu quan hệ tự quản lý

RDBMS tự quản lý và kho lưu trữ trên AWS bao gồm các tác vụ quản trị hệ thống và quản lý cơ sở dữ liệu truyền thống. Thay vì phải thực hiện các tác vụ này trên cơ sở hạ tầng vật lý của mình, bạn chỉ cần thực hiện các tác vụ trên cơ sở hạ tầng đám mây.

Amazon EC2 cho phép bạn thiết lập và định cấu hình phiên bản cho bất kỳ loại hệ thống quản lý cơ sở dữ liệu quan hệ nào. Việc định cấu hình và chạy phiên bản EC2 yêu cầu các tác vụ như quản lý bảo mật, cấu hình hiệu năng, giám sát và bảo trì. 

Đối với kho lưu trữ cơ sở, bạn có thể chọn trong số Amazon EBS, Amazon Elastic File System (EFS) cho kho lưu trữ linh hoạt hoàn toàn và kho phiên bản tạm thời. Bạn có thể lựa chọn giữa các ổ đĩa lớn và nhỏ cho kho lưu trữ, tùy theo nhu cầu cơ sở dữ liệu của mình.

Kho lưu trữ cơ sở dữ liệu phi quan hệ hoạt động như thế nào?

Cơ sở dữ liệu phi quan hệ, còn được gọi là cơ sở dữ liệu NoSQL, áp dụng cách thức lưu trữ, truy cập và lập mô hình dữ liệu khác với cơ sở dữ liệu quan hệ, sử dụng các cấu trúc dữ liệu riêng biệt. Có nhiều loại cơ sở dữ liệu phi quan hệ hỗ trợ các trường hợp sử dụng khác nhau, mỗi kho dữ liệu được thiết kế với một cấu trúc cơ sở dữ liệu riêng.

Các loại cơ sở dữ liệu phi quan hệ bao gồm: cơ sở dữ liệu kho khóa-giá trị, cơ sở dữ liệu tài liệu, cơ sở dữ liệu cột rộng, cơ sở dữ liệu đồ thị, cơ sở dữ liệu nằm trong bộ nhớ và cơ sở dữ liệu tìm kiếm.

Cơ sở dữ liệu phi quan hệ được quản lý

AWS cung cấp một loạt các dịch vụ được quản lý cho từng loại cơ sở dữ liệu phi quan hệ.

  • Amazon DynamoDB là kho khóa-giá trị được quản lý và dịch vụ cơ sở dữ liệu tài liệu sử dụng kho lưu trữ tùy chỉnh, phân tán và dựa trên SSD bên trong.
  • Amazon DocumentDB (với khả năng tương thích MongoDB) là dịch vụ cơ sở dữ liệu tài liệu JSON gốc được quản lý sử dụng kho lưu trữ tùy chỉnh, phân tán và dựa trên SSD.
  • Amazon Keyspaces (dành cho Apache Cassandra) là dịch vụ cơ sở dữ liệu cột rộng tương thích với Apache Cassandra được quản lý sử dụng kho lưu trữ tùy chỉnh, phân tán và dựa trên SSD.
  • Amazon Neptune là dịch vụ cơ sở dữ liệu đồ thị được quản lý sử dụng kho lưu trữ tùy chỉnh, phân tán và dựa trên SSD.  
  • Amazon MemoryDB là dịch vụ cơ sở dữ liệu nằm trong bộ nhớ tương thích với Valkey và Redis OSS sử dụng kho lưu trữ tùy chỉnh, phân tán và dựa trên SSD. 
  • Amazon ElastiCache là dịch vụ bộ nhớ đệm nằm trong bộ nhớ tương thích với bộ nhớ đệm nằm trong bộ nhớ của Valkey, Redis và Memcached, sử dụng kho lưu trữ dữ liệu RAM và EBS.  

Amazon DynamoDB, Amazon DocumentDB, Amazon Keyspaces, Amazon Neptune và Amazon MemoryDB đều sử dụng các loại kho lưu trữ tùy chỉnh, độc quyền, được hỗ trợ bởi SSD.

Mặc dù sử dụng kho lưu trữ EBS, nhưng Amazon ElastiCache không cung cấp các lựa chọn dựa trên kho lưu trữ và người dùng không có quyền truy cập trực tiếp vào kho lưu trữ ở cấp độ tệp. ElastiCache là cơ sở dữ liệu phi quan hệ kiểu bộ nhớ đệm.

Cơ sở dữ liệu phi quan hệ tự quản lý

Việc định cấu hình và lưu trữ cơ sở dữ liệu phi quan hệ trên AWS tuân theo mô hình cơ sở hạ tầng tương tự như đối với cơ sở dữ liệu quan hệ. 

Bạn có thể sử dụng phiên bản EC2 để chạy bất kỳ loại cơ sở dữ liệu NoSQL nào, bao gồm MongoDB, Redis và HBase. Dữ liệu cơ sở có thể được lưu trữ trên Amazon EBS, Amazon Elastic File System (EFS) bằng kho lưu trữ linh hoạt hoàn toàn và kho phiên bản tạm thời, tùy theo trường hợp sử dụng của bạn.

Còn loại kho lưu trữ cơ sở dữ liệu nào khác không?

Không phải dữ liệu doanh nghiệp nào cũng hoàn toàn phù hợp với các định dạng cơ sở dữ liệu quan hệ hoặc phi quan hệ và hoạt động phân tích hiện đại thường có thể chứa các loại dữ liệu bán cấu trúc và phi cấu trúc khác. 

Ví dụ: Bạn có thể lưu trữ dữ liệu bán cấu trúc trong tệp dữ liệu Apache Avro trên Amazon S3 và phân tích dữ liệu nguyên trạng, thay vì tái cấu trúc dữ liệu để phù hợp với cơ sở dữ liệu. Bạn có thể sử dụng S3 làm giải pháp lưu trữ cho bất kỳ loại dữ liệu nào.

Cách lựa chọn giữa các loại kho lưu trữ cơ sở dữ liệu?

Quyết định giữa việc sử dụng dịch vụ cơ sở dữ liệu được quản lý hay dịch vụ tự quản lý sẽ xác định các lựa chọn mà bạn có về kho lưu trữ dữ liệu.

Kiểm soát hoàn toàn môi trường

Các tổ chức muốn kiểm soát toàn bộ môi trường cơ sở dữ liệu của mình phải chọn giải pháp cơ sở dữ liệu tự quản lý trên AWS. Bạn có thể sử dụng cơ sở dữ liệu và kho lưu trữ tự quản lý cho cả cơ sở dữ liệu quan hệ lẫn phi quan hệ. Bằng cách sử dụng giải pháp tự quản lý EC2, bạn có thể truy cập trực tiếp dữ liệu cơ sở trong kho lưu trữ hệ thống tệp của mình, bất kể được lưu trữ trong EBS, EFS hay kho phiên bản.

Giảm gánh nặng chi phí

Các dịch vụ được quản lý cung cấp ít hoặc hầu như không có khả năng tùy chỉnh về vị trí và cách thức lưu trữ dữ liệu, nhưng đổi lại là giảm bớt gánh nặng chi phí liên quan đến quản lý hạ tầng. Các tổ chức thường di chuyển sang đám mây để có quyền truy cập vào các dịch vụ được quản lý, giảm nhu cầu quản lý và bảo trì cơ sở hạ tầng. 

Tuy nhiên, cũng có trường hợp sử dụng mà các tổ chức cần quyền truy cập cấp độ tệp vào dữ liệu cơ sở của cơ sở dữ liệu. Ví dụ: Ứng dụng hiện tại có thể cần quyền truy cập dữ liệu trực tiếp từ tệp, các hệ thống cách ly có thể cần cấu hình này hoặc các nghĩa vụ về toàn vẹn dữ liệu cần tuân thủ có thể yêu cầu quyền truy cập cấp độ tệp.

Việc lựa chọn dịch vụ cơ sở dữ liệu được quản lý so với cấu hình cơ sở dữ liệu tự quản lý phụ thuộc vào trường hợp sử dụng riêng của từng cơ sở dữ liệu. Hãy cân nhắc kỹ từng cơ sở dữ liệu trong tổ chức của bạn, bao gồm cả cấu hình và yêu cầu hiện có của cơ sở dữ liệu đó, từ đó giúp định hướng quá trình ra quyết định. 

Giải pháp của bạn phải bao gồm hệ thống sao lưu đáp ứng các yêu cầu dự phòng dữ liệu trong trường hợp xảy ra lỗi hệ thống.

AWS có thể hỗ trợ nhu cầu lưu trữ dữ liệu của bạn như thế nào?

Việc lưu trữ cơ sở dữ liệu trên AWS sẽ trở nên đơn giản hơn nếu bạn chọn dịch vụ cơ sở dữ liệu được quản lý. Mỗi dịch vụ được quản lý sẽ đảm nhận phần việc lưu trữ cho bạn, xử lý dữ liệu hiệu quả mà không cần quản trị viên của bạn phải thực hiện cấu hình thêm. Sử dụng dịch vụ được quản lý đồng nghĩa với việc AWS trở thành trình quản lý lưu trữ không cần chạm của bạn.

Nếu bạn áp dụng phương pháp tự quản lý đối với cơ sở dữ liệu trên AWS, bạn sẽ có quyền kiểm soát cách lưu trữ dữ liệu bạn muốn. Phương pháp tự quản lý cho phép truy cập và truy xuất dữ liệu trực tiếp từ bộ nhớ vật lý.

Bất kể bạn đang thực hiện di chuyển MySQL hay tạo kho khóa-giá trị mới, hãy khám phá các tùy chọn cơ sở dữ liệu của bạn trên AWS

Hãy bắt đầu với việc xây dựng cơ sở hạ tầng cơ sở dữ liệu hiện đại phù hợp với nhu cầu của bạn bằng cách tạo tài khoản miễn phí trên AWS ngay hôm nay.