Data Engineering Immersion Day > Lab: Transforming data with Glue > Data Validation and ETL

Data Validation and ETL

DeployCF

DeployCF

Chọn S3 làm data source, S3 Path là path chứa CSV files từ bài lab DMS, tất cả các tham số còn lại để default và nhấn Add an S3 data source
Chọn Next
Chọn Iam Role
Chọn Next
Chọn Add database
Nhập ticketdata là tên database và nhấn Create database

DeployCF

DeployCF

DeployCF

Chọn ticketdata database, person tables Tại table này sẽ có một số cột không thể xác định tên. Chúng ta sẽ khắc phục nó.
Chọn Edit Schema

DeployCF

Nhập id làm column name và nhấn Save DeployCF

Lặp lại các bước trên với từng các cột còn lại: full_name, last_name and first_name. DeployCF

DeployCF

Quan sát properties của Transform - Change Schema node. Đổi type của id thành double

DeployCF

Chọn S3 là target.
Chọn Data target - S3 bucket để xem thuộc tính. Đổi Format thành Parquet. Tại Compression Type chọn Uncompressed
Chọn S3 Target Location, nhấn Browse S3 và chọn tickets item trong “dmslabs3bucket” bucket và nhấn Choose

DeployCF

Thêm dms_parquet/sport_team/ vào S3 url.
Chọn Job details và Nhập tên là Glue-Lab-SportTeamParquet.
Chọn IAM Role
Tại Job bookmark, chọn Disable. Chúng ta sẽ thực hành bookmark tại bài lab tiếp theo/
Nhấn Save button để tạo job
Khi thấy thông báo Successfully created job, chọn Run để bắt đầu job.
Chọn Jobs phía panel bên trái để xem list jobs.
Chọn Monitoring để xem thống kê trạng thái và số lân run.
Chọn Job run để xác định ETL job đã chạy thành công. Mất khoảng tầm 1 phút.