Data Validation and ETL

PART A: Tạo Glue Crawler để load full data

  1. Truy cập AWS Glue Console

DeployCF

  1. Tại AWS Glue menu, chọn Crawlers DeployCF

  2. Chọn Create crawler.

  3. Nhập glue-lab-crawler làm crawler name để init load

  4. Có thể nhập hoặc không description và nhấn next. DeployCF

  5. Chọn Not yetAdd a data source

DeployCF

  1. Chọn S3 làm data source, S3 Path là path chứa CSV files từ bài lab DMS, tất cả các tham số còn lại để default và nhấn Add an S3 data source

  2. Chọn Next DeployCF

  3. Chọn Iam Role

  4. Chọn Next DeployCF

  5. Chọn Add database

  6. Nhập ticketdata là tên database và nhấn Create database

DeployCF

  1. Chọn Target database là ticketdata vừa tạo và nhấn next

DeployCF

  1. Review và nhấn Create crawler. DeployCF

  2. Thực hiện Crawler bằng cách nhấn Run crawler DeployCF

  3. Tại AWS Glue chọn Databases -> Tables

DeployCF

PART B: Xác thực dữ liệu

  1. Chọn ticketdata database, person tables Tại table này sẽ có một số cột không thể xác định tên. Chúng ta sẽ khắc phục nó.
  2. Chọn Edit Schema

DeployCF

  1. Chọn colr0 và nhấn Edit DeployCF

Nhập id làm column name và nhấn Save DeployCF

Lặp lại các bước trên với từng các cột còn lại: full_name, last_name and first_name. DeployCF

  1. Nhấn Save as new table version.

PART C: Data ETL

  1. Chọn ETL jobs. DeployCF

  2. Chọn Visual ETL DeployCF

  3. Chọn Amazon S3 từ Sources list để thêm Data source - S3 bucket DeployCF

  4. Quan sát data source properties. DeployCF

  5. Chọn ticketdata database, chọn tables sport_team DeployCF

  6. Chọn Change Schema để thêm Transform - Change Schema node.

DeployCF

  1. Quan sát properties của Transform - Change Schema node. Đổi type của id thành double

DeployCF

  1. Chọn S3 là target. DeployCF

  2. Chọn Data target - S3 bucket để xem thuộc tính. Đổi Format thành Parquet. Tại Compression Type chọn Uncompressed

  3. Chọn S3 Target Location, nhấn Browse S3 và chọn tickets item trong “dmslabs3bucket” bucket và nhấn Choose

DeployCF

  1. Thêm dms_parquet/sport_team/ vào S3 url. DeployCF

  2. Chọn Job details và Nhập tên là Glue-Lab-SportTeamParquet.

  3. Chọn IAM Role

  4. Tại Job bookmark, chọn Disable. Chúng ta sẽ thực hành bookmark tại bài lab tiếp theo/ DeployCF

  5. Nhấn Save button để tạo job

  6. Khi thấy thông báo Successfully created job, chọn Run để bắt đầu job.

  7. Chọn Jobs phía panel bên trái để xem list jobs.

  8. Chọn Monitoring để xem thống kê trạng thái và số lân run. DeployCF

  9. Chọn Job run để xác định ETL job đã chạy thành công. Mất khoảng tầm 1 phút.

DeployCF

  1. Lặp lại các bước trên cho 4 tables sport_location, sporting_event, sporting_event_ticket and person tables

PART D: Tạo Glue Crawler cho Parquet Files

  1. Tại Glue navigation menu, chọn Create crawler.

DeployCF

  1. Nhập glue-lab-parquet-crawler làm Crawler name và nhấn Next DeployCF

  2. Chọn Not yetAdd a data source

  3. Chọn S3 làm data source DeployCF

  4. Chọn Next

  5. Chọn IAM role DeployCF

  6. Chọn ticketdata làm database DeployCF

  7. Review lại và nhấn Create crawler

DeployCF

  1. Chọn Run Crawler DeployCF

Quan sát tables 10. Chọn Tables 11. Chọn filter parquet và quan sát

DeployCF

Chúng ta đã hoàn thành bài lab Data Validation and ETL