Dùng dữ liệu trị dữ liệu

 Một trong những công việc quan trọng và tốn thời gian của kĩ sư dữ liệu là đảm bảo các luồng thu thập, xử lý dữ liệu được vận hành một cách trơn tru, các lỗi dữ liệu được xử lý nhanh chóng và chính xác. Công việc đó đã được giảm tải thông qua việc áp dụng phân tích dữ liệu vào xây dựng hệ thống theo dõi và cảnh báo.


Vấn đề phát sinh

Trong môi trường dữ liệu lớn, việc kiểm soát lưu lượng các dữ liệu là khó khăn. Các phương pháp thông thường như đọc và kiểm tra dữ liệu thủ công là không khả thi. Bên cạnh đó có một số loại dữ liệu của ứng dụng có thông tin khách được bảo mật, giới hạn quyền truy cập. Với một hệ thống phân tích lớn, có rất nhiều luồng xử lý dữ liệu, có nhiều người chịu trách nhiệm chồng chéo nhiều phần khiến việc phát hiện, xử lý mất nhiều thời gian.

Phương pháp xử lý

Sau khi làm việc cùng với các Chuyên viên dữ liệu, các kĩ sư dữ liệu của VTCC đã cài đặt hệ thống theo dõi và cảnh báo dữ liệu cho Data Lake, Data Warehouse của VTCC thông qua các phân tích thống kê và một số mô hình dự đoán cơ bản. Các sự kiện bất thường được gửi thông báo đến người có trách nhiệm.

Bước đầu tiên để xây dựng hệ thống là theo dõi dữ liệu: Dữ liệu trong Data Lake, Data Warehouse được thu thập định kì qua các job lấy dữ liệu về database monitoring. Dữ liệu thu thập được lấy theo các tiêu chí đưa ra chuyên viên phân tích dữ liệu như số bản ghi, dung lượng, tần suất xuất hiện của một số thuộc tính...\

Với các dữ liệu nhạy cảm cần theo dõi, kĩ sư dữ liệu đã làm việc cùng với các đội làm ứng dụng để tích hợp và gửi thông tin cần thiết về hệ thống theo dõi, không gửi thông tin nhạy cảm.

Bước thứ 2: Dữ liệu thu thập được trực quan hóa thông qua ứng dụng trên web

Clipboard - December 17, 2020 4_06 PM

Clipboard - December 17, 2020 4_07 PM

Một dashboard theo dõi dữ liệu trên Hệ thống dữ liệu Streaming

Bước thứ 3: Từ việc phân tích các dữ liệu này, đội chuyên viên dữ liệu của VTCC đã đưa ra các tiêu chí và mô hình cảnh báo cho từng loại dữ liệu. Các dữ liệu bất thường được gửi thông báo thông qua kênh SMS, Telegram đến người quản lý và có trách nhiệm xử lý luồng dữ liệu.

Hiệu quả

Sau khi triển khai hệ thống theo dõi và cảnh báo, thời gian phát hiện và xử lý các lỗi về dữ liệu đã được giảm thiểu từ 3 ngày đến dưới 1 ngày, giảm tải cho đội ngũ kĩ sư và đem lại sự tin tưởng khi sử dụng dữ liệu.

Trong tương lai, hệ thống đang có kế hoạch sẽ bổ sung thêm các kĩ thuật, mô hình tiên tiến hơn để hiệu quả hơn nữa.

Nhận xét