Truy cập AWS Glue DataBrew và nhấn Create project
Tạo project với các thông tin:

Tại phần Connect to a new dataset, chọn Amazon S3 bên dưới “Data lake/data store”
Nhập DatasetS3Path từ output cloudformation

Trong phần Sampling dể mặc định.

Trong phần Permissions chọn role name từ OutPut cloudformation có key là: DataBrewLabRole

Nhấn Create project
Glue DataBrew sẽ tạo project trong vòng vài phút.


Grid view hiển thị các thông tin sau:
Trong schema view, chúng ta có thể:
Trong profile view, chúng ta có thể chạy data profile job để kiểm tra và thu thập các tóm tắt thống kê về dữ liệu. Data profile là sự đánh giá về mặt cấu trúc, nội dung, mối quan hệ và nguồn gốc.

Chọn Run data profile
Trong Job details và Job run sample để các value bằng mặc định. Trong Job output settings chọn value của key DataBrewOutputS3Bucket và thêm vào cuối /data-profile/ như sau:

Cuối cùng nhấn Create and run job

Khi profile job successfully completed, chọn View data profile

Sau đó, sẽ hiển thị ra Data profile overview

Bạn cũng có thể truy cập Profile tab trong project Data profile hiển thị bản tóm tắt về các hàng và cột trong tập dữ liệu, số lượng cột và hàng hợp lệ cũng như mối tương quan giữa các cột.

Trong phần này, chúng ta sẽ áp dụng các phép biến đổi sau cho tập dữ liệu.

Chọn Apply



Click apply.


Cột probableCases bị thiếu dữ liệu. Chúng ta sẽ điền vào các chỗ bị thiếu giá trị 0.

Ánh xạ các giá trị của cột dataQualityGrade thành các giá trị số.
Để điều hướng đến cột dataQualityGrade, hãy nhấp vào danh sách cột thả xuống ở trên cùng, nhập dataQualityGrade vào trường tìm kiếm và nhấp vào View.

Trong Categorically map column dialog
| dataQualityGrade | value |
|---|---|
| N/A | 0 |
| A+ | 1 |
| A | 2 |
| B | 3 |
| C | 4 |
| D | 5 |

Để tất cả các cài đặt khác làm mặc định. Nhấp vào Apply
Sau phép biến đổi này, cột mới dataQualityGrade_mapped có kiểu double, hãy chuyển cột này thành số nguyên. Bằng cách nhấp vào # ở trên cùng bên trái của cột mới dataQualityGrade_mapped. Nhấp vào Apply ở phía bên phải để xác nhận thay đổi.

Nhấp vào nút Publish ở đầu công thức.
Tùy chọn nhập mô tả phiên bản và nhấp vào Publish

Nhập covid-states-daily-prep là job name
Chọn Create a recipe job
Chọn covid-states-daily-stats dataset
Chọn covid-states-daily-recipe

Tại mục Job output settings nhập:

Click Settings

Tại Permissions chọn role từ Output của CloudFomation:

Chọn Create and run job

Chọn Lineage

Chế độ xem này hiển thị nguồn gốc của dữ liệu và các bước chuyển đổi mà dữ liệu đã trải qua.

Chúng ta đã hoàn thành DataBrew Lab.