
Tại AWS Glue menu, chọn Crawlers

Chọn Create crawler.
Nhập glue-lab-crawler làm crawler name để init load
Có thể nhập hoặc không description và nhấn next.

Chọn Not yet và Add a data source

Chọn S3 làm data source, S3 Path là path chứa CSV files từ bài lab DMS, tất cả các tham số còn lại để default và nhấn Add an S3 data source
Chọn Next

Chọn Iam Role
Chọn Next

Chọn Add database
Nhập ticketdata là tên database và nhấn Create database


Review và nhấn Create crawler.
Thực hiện Crawler bằng cách nhấn Run crawler

Tại AWS Glue chọn Databases -> Tables



Nhập id làm column name và nhấn Save

Lặp lại các bước trên với từng các cột còn lại: full_name, last_name and first_name.

Chọn ETL jobs.

Chọn Visual ETL

Chọn Amazon S3 từ Sources list để thêm Data source - S3 bucket

Quan sát data source properties.

Chọn ticketdata database, chọn tables sport_team

Chọn Change Schema để thêm Transform - Change Schema node.


Chọn S3 là target.

Chọn Data target - S3 bucket để xem thuộc tính. Đổi Format thành Parquet. Tại Compression Type chọn Uncompressed
Chọn S3 Target Location, nhấn Browse S3 và chọn tickets item trong “dmslabs3bucket” bucket và nhấn Choose

Thêm dms_parquet/sport_team/ vào S3 url.

Chọn Job details và Nhập tên là Glue-Lab-SportTeamParquet.
Chọn IAM Role
Tại Job bookmark, chọn Disable. Chúng ta sẽ thực hành bookmark tại bài lab tiếp theo/

Nhấn Save button để tạo job
Khi thấy thông báo Successfully created job, chọn Run để bắt đầu job.
Chọn Jobs phía panel bên trái để xem list jobs.
Chọn Monitoring để xem thống kê trạng thái và số lân run.

Chọn Job run để xác định ETL job đã chạy thành công. Mất khoảng tầm 1 phút.


Nhập glue-lab-parquet-crawler làm Crawler name và nhấn Next

Chọn Not yet và Add a data source
Chọn S3 làm data source

Chọn Next
Chọn IAM role

Chọn ticketdata làm database

Review lại và nhấn Create crawler


Quan sát tables 10. Chọn Tables 11. Chọn filter parquet và quan sát

Chúng ta đã hoàn thành bài lab Data Validation and ETL