Thursday, November 14, 2024

[AWS] Lake Formation

-

AWS Lake Formation

AWS Lake Formation là một dịch vụ quản lý toàn diện giúp dễ dàng thiết lập một data lake trong vài ngày. Data lake là nơi trung tâm để lưu trữ dữ liệu để phục vụ cho mục đích phân tích dữ liệu. AWS Lake Formation giúp phát hiện, làm sạch, chuyển đổi và nhập dữ liệu vào Data Lake. Nó tự động hóa nhiều bước thủ công phức tạp (thu thập, làm sạch, di chuyển, đánh nhãn dữ liệu, …) và loại bỏ sự trùng lặp dữ liệu (bằng cách sử dụng các ML Transforms).

AWS Lake Formation cho phép kết hợp dữ liệu có cấu trúc và không có cấu trúc trong data lake. Nó có các bản mẫu nguồn (source blueprints) sẵn có để kết nối với các dịch vụ như S3, RDS, Relational & NoSQL DB…

Dịch vụ cung cấp quản lý truy cập chi tiết cho các ứng dụng của bạn (cấp độ hàng và cột) và được xây dựng trên nền tảng của AWS Glue.

AWS Lake Formation

Đoạn văn bản trên nói về việc sử dụng AWS Lake Formation để tạo ra một Data Lake trung tâm để lưu trữ tất cả dữ liệu cho mục đích phân tích. AWS Lake Formation là một dịch vụ quản lý hoàn toàn giúp cho việc thiết lập Data Lake trở nên dễ dàng chỉ trong vài ngày.

AWS Lake Formation cho phép khám phá, làm sạch, chuyển đổi và thu thập dữ liệu vào Data Lake của bạn. Nó tự động hóa nhiều bước thủ công phức tạp như thu thập, làm sạch, di chuyển và phân loại dữ liệu và giảm trùng lặp (sử dụng các biến đổi ML).

AWS Lake Formation cho phép kết hợp dữ liệu có cấu trúc và không cấu trúc trong Data Lake. Nó có các bản mẫu nguồn sẵn để kết nối với các nguồn dữ liệu phổ biến như Amazon S3, RDS, Aurora, cơ sở dữ liệu SQL & NoSQL trên các máy chủ riêng.

Với AWS Lake Formation, bạn có thể quản lý truy cập chi tiết cho các ứng dụng của bạn (cấp độ dòng và cột), cung cấp bảo mật tối đa cho dữ liệu. AWS Lake Formation được xây dựng trên nền tảng AWS Glue. Dữ liệu trong Data Lake được lưu trữ trên S3, và có thể sử dụng Source Crawlers, ETL và Data Prep, Data Catalog, Security Settings và Access Control để truy cập vào dữ liệu và đưa vào các nền tảng phân tích như Athena, Redshift và EMR để cung cấp cho người dùng.

AWS Lake Formation Centralized Permissions Example

Sơ đồ trên nói về quá trình chuyển dữ liệu từ các nguồn dữ liệu khác nhau (Amazon S3, RDS, Aurora) vào AWS Lake Formation để tạo ra một data lake (hồ dữ liệu) được lưu trữ trên Amazon S3. AWS Lake Formation cung cấp quyền truy cập cấp cột cho dữ liệu trong data lake thông qua các thiết lập bảo mật và kiểm soát truy cập.

Sau đó, dữ liệu được truy cập thông qua Amazon Athena và cuối cùng được trình bày cho người dùng thông qua QuickSight.

LEAVE A REPLY

Please enter your comment!
Please enter your name here

4,956FansLike
256FollowersFollow
223SubscribersSubscribe
spot_img

Related Stories