Data Engineering Immersion Day > Lab. Phát hiện luồng click chuột bất thường bằng Amazon Managed Service for Apache Flink > Lab. Streaming ETL with Glue

Lab. Streaming ETL with Glue

Giới thiệu

Trong bài lab này, ta sẽ tìm hiểu cách nhập, xử lý và sử dụng streaming data bằng các dịch vụ serverless của AWS như Kinesis Data Streams, Glue, S3 và Athena. Để mô phỏng đầu vào truyền dữ liệu, chúng tôi sẽ sử dụng Kinesis Data Generator (KDG).

DeployCF

Setup môi trường

Sử dụng DMS Lab Student PreLab CloudFormation để thiết lập môi trường cơ sở hạ tầng hội thảo cốt lõi của bạn. Bỏ qua PreLab tương tự trong phần DMS. Nhấp vào biểu tượng Triển khai lên AWS bên dưới:

Deploy To AWS

Set up kinesis stream

Mở AWS Kinesis console
Chọn “Create data stream”
Nhập số liệu như sau:

Data stream name: TicketTransactionStreamingData
Capacity mode: Provisioned
Provisioned shards: 2

DeployCF

Chọn Create data stream

Create Table for Kinesis Stream Source in Glue Data Catalog

Mở tab AWS Glue console
Tạo database có tên là “tickettransactiondatabase”
Tạo tables có tên là “TicketTransactionStreamData” ở trong database “tickettransactiondatabase”
Chọn Kinesis làm nguồn, chọn Luồng trong my account để chọn luồng dữ liệu Kinesis, chọn khu vực AWS thích hợp nơi bạn đã tạo luồng, chọn tên luồng là TicketTransactionStreamingData từ danh sách thả xuống, chọn JSON làm định dạng dữ liệu đến, vì chúng ta sẽ gửi JSON payloads từ Kinesis Data Generator theo các bước sau. và nhấp vào Tiếp theo.
Để trống schema vì chúng ta sẽ bật tính năng schema detection. Để trống partition indices. Chọn Next
Review lại tất cả thông tin và nhấn Create

DeployCF

Chọn vào Table để xem các thuộc tính

DeployCF

Tạo và trigger Glue Streaming job

Tại mục Data Integration and ETL chọn Glue Studio

DeployCF

Chọn Visual with a blank canvas và nhấn Create
Chọn Amazon Kinesis từ Source drop down
Trong bảng bên phải phía dưới “Data source properties - Kinesis Stream”, cấu hình như sau:

Amazon Kinesis Source: Data Catalog table
Database: tickettransactiondatabase
Table: tickettransactionstreamdata
Đảm bảo rằng Detect schema được chọn
Để tất cả còn lại mặc định

DeployCF

Chọn Amazon S3 từ target drop down list

DeployCF

Chọn Data target - S3 bucket và cấu hình như sau:

Format: Parquet
Compression Type: None
S3 Target Location: Select Browse S3 and select the “mod-xxx-dmslabs3bucket-xxx” bucket

Cuối cùng chọn Job details tab và cấu hình theo như sau:

Name: TicketTransactionStreamingJob
IAM Role: Select the xxx-GlueLabRole-xxx from the drop down list
Type: Spark Streaming

Nhấn Save button để tạo job
Khi thấy Successfully created job ta nhấn Run button để start job

Trigger streaming data từ Kinesis Data Generator

Truy cập Kinesis Data Generator url từ tab setup và đăng nhập.
Đảm bảo chọn đúng region. Chọn TicketTransactionStreamingData là target Kinesis stream để Records per second mặc định (100 records per second). Đối với template, nhập NormalTransaction, copy và dán template payload như sau:

{
    "customerId": "{{random.number(50)}}",
    "transactionAmount": {{random.number(
        {
            "min":10,
            "max":150
        }
    )}},
    "sourceIp" : "{{internet.ip}}",
    "status": "{{random.weightedArrayElement({
        "weights" : [0.8,0.1,0.1],
        "data": ["OK","FAIL","PENDING"]
        }        
    )}}",
   "transactionTime": "{{date.now}}"      
}

DeployCF

Click Send data để trigger transaction streaming data.

Tạo Glue Crawler để transformed data

Truy cập AWS Glue console
Tại AWS Glue menu, chọn Crawlers and click Add crawler

DeployCF

Nhập tên crawler là TicketTransactionParquetDataCrawler, nhấn Next

DeployCF

Click vào Add a datasource
Chọn S3 và chỉ định path
Sau khi thêm datasource, nhấn next

DeployCF

Chọn IAM Role và nhấn Next

DeployCF

Chọn prefix là parquet_ cho tables

DeployCF

Đăt Crawler Schedule chạy mỗi giờ.
Review lại Crawler và Click Create để tạo Crawler
Sau khi Crawler tạo xong. Nhấn Run crawler để trigger lần đầu.

DeployCF

Khi crawler job stop, chuyển đến Glue Data catalog. Đảm bảo rằng parquet_tickettransactionstreamingdata table xuất hiện

DeployCF

Click vào parquet_tickettransactionstreamingdata table để xem chi tiết

Trigger dữ liệu bất thường từ Kinesis Data Generator(KDG)

Mở Kinesis Data Generator, chọn đúng region. Chọn TicketTransactionStreamingData là Kinesis stream đích
Template cho record

{
    "customerId": "{{random.number(50)}}",
    "transactionAmount": {{random.number(
        {
            "min":10,
            "max":150
        }
    )}},
    "sourceIp" : "221.233.116.256",
    "status": "{{random.weightedArrayElement({
        "weights" : [0.8,0.1,0.1],
        "data": ["OK","FAIL","PENDING"]
        }        
    )}}",
   "transactionTime": "{{date.now}}"      
}

DeployCF

Click send data

Sử dụng Athena để truy vấn dữ liệu

Mở AWS Athena console
Chọn AwsDataCatalog làm data source và tickettransactiondatabase là database
Sử dụng các truy vấn sau để xem dữ liệu

SELECT count(*) as numberOfTransactions, sourceip
FROM "tickettransactiondatabase"."parquet_tickettransactionstreamingdata" 
WHERE ingest_year='2024'
AND cast(ingest_year as bigint)=year(now())
AND cast(ingest_month as bigint)=month(now())
AND cast(ingest_day as bigint)=day_of_month(now())
AND cast(ingest_hour as bigint)=hour(now())
GROUP BY sourceip
Order by numberOfTransactions DESC;