



Truy cập AWS Lake Formation:

Nếu là lần đầu đăng nhập vào Lake Formation. Đầu tiên chúng ta cần thêm administrators.
Mở Welcome to Lake Formation pop-up. Chọn Add myself checkbox và nhấn Get started

Click chọn Databases. Chọn ticketdata và nhấn Actions -> Grant.

Trao quyền super cho cả 2 Database permissions and Grantable permissions.

Chọn Edit database ticketdata

Uncheck Use only IAM access control và nhấn Save

Chọn Blueprints và nhấn Use blueprint

Blueprint Type, Chọn Database snapshot
Import Source:

Import Target




Lake Formation blueprin sẽ tạo Glue Workflow điều phối các công việc của Glue ETL (cả python shell và pyspark), Glue crawlers và triggers. Sẽ mất tầm 20-30 phút để thực thi lần đầu tiên. Chúng ta hãy cùng xem các thành phần mà nó tạo ra:
Tại Lake Formation console, Chọn Blueprints
Tại Workflow section, chọn tên Workflow. CLick vào Run Id.

Tại đây bạn có thể thấy Workflow Run details

Để xem các jobs được tạo. Nhấn AWS Glue và Chọn ETL Jobs.

Xem lịch sử và các thông số liên quan.



SELECT * FROM "ticketdata"."lakeformation__sportstickets_dms_sample_mlb_data" limit 10;
SELECT count(*) as recordcount FROM "ticketdata"."lakeformation__sportstickets_dms_sample_mlb_data";
Thêm IAM User

Tạo user với tên là: datalake_user

Gán cho User policy AthenaFullAccess
Tạo user
Chọn User datalake_user vừa tạo, Nhấn add inline policy:

Sử dụng đoạn json sau đây.
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"s3:Put*",
"s3:Get*",
"s3:List*"
],
"Resource": [ "arn:aws:s3:::<your_dmslabs3bucket_unique_name>/*" ]
}
]
}
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"lakeformation:StartQueryPlanning",
"lakeformation:GetQueryState",
"lakeformation:GetWorkUnits",
"lakeformation:GetWorkUnitResults"
],
"Resource": "*"
}
]
}

SELECT * FROM "ticketdata"."lakeformation__sportstickets_dms_sample_mlb_data" limit 10;
