Tổng quan

Sắp xếp dữ liệu là quá trình đưa dữ liệu thô về trạng thái có cấu trúc, sạch và sẵn sàng để phân tích hoặc trình bày.

1) Khám phá dữ liệu

  • Định dạng dữ liệu đang có.
  • Phân bố, phạm vi giá trị.
  • Số lượng bản ghi.

Ví dụ:

  • Kiểm tra cột ngày là dd/mm/yyyy hay yyyy-mm-dd.
  • Xem phân bố giá trị đơn hàng theo nhóm.
  • Đếm số lượng bản ghi theo từng tháng.

2) Chuyển đổi: Cấu trúc

  • Nguồn dữ liệu quan hệ (SQL): nối bảng (join), gộp bảng (union).
  • Nguồn từ API.
  • Hợp nhất dữ liệu nhiều nguồn theo khóa chung.

Ví dụ:

  • Nối bảng đơn hàng với bảng khách hàng theo customer_id.
  • Gộp dữ liệu đơn hàng từ nhiều chi nhánh.
  • Kết hợp dữ liệu đơn hàng từ API giao vận.

2) Chuyển đổi: Chuẩn hóa

  • Làm sạch cột không dùng.
  • Giảm dư thừa, không nhất quán.
  • Chuẩn hóa kiểu dữ liệu và định dạng.

Ví dụ:

  • Chuẩn hóa mã khu vực từ HCM, Ho Chi Minh thành HCM.
  • Đổi kiểu dữ liệu số tiền từ chuỗi sang số.
  • Loại bỏ cột thử nghiệm không dùng trong phân tích.

2) Chuyển đổi: Làm sạch

  • Xử lý giá trị thiếu.
  • Loại bỏ dữ liệu trùng.
  • Kiểm tra lỗi nhập liệu.

Ví dụ:

  • Xóa đơn hàng trùng mã theo cùng thời điểm.
  • Điền giá trị thiếu bằng trung vị hoặc giá trị phổ biến.
  • Sửa lỗi nhập liệu như 1000,000 thành 1,000,000.

2) Chuyển đổi: Tạo thêm

  • Bổ sung điểm dữ liệu có ý nghĩa.
  • Làm giàu dữ liệu từ nguồn khác.
  • Tạo biến mới phục vụ phân tích.

Ví dụ:

  • Tạo biến doanh_thu = so_luong * don_gia.
  • Gắn nhãn khách hàng theo nhóm tuổi.
  • Bổ sung dữ liệu khu vực từ bảng địa lý bên ngoài.

3) Xác thực

  • Kiểm tra chất lượng: nhất quán, độ tin cậy, bảo mật.
  • Áp dụng quy tắc riêng cho từng bộ dữ liệu.

Ví dụ:

  • Tổng doanh thu sau làm sạch phải khớp báo cáo kế toán.
  • Tỉ lệ trùng lặp phải dưới 1% theo quy định nội bộ.
  • Dữ liệu nhạy cảm phải được ẩn hoặc mã hóa.

4) Xuất bản

  • Chuẩn bị dữ liệu đầu vào cho phân tích và trình bày.
  • Viết tài liệu mô tả dữ liệu và quy tắc xử lý.

Ví dụ:

  • Xuất bảng dữ liệu chuẩn để làm dashboard KPI.
  • Tạo file dữ liệu đầu vào cho mô hình dự báo.
  • Viết tài liệu mô tả các cột và ý nghĩa.

Ví dụ minh họa

Tình huống: dữ liệu bán hàng đến từ hệ thống POS, CRM và khảo sát.

  • Khám phá: kiểm tra định dạng ngày, mã sản phẩm, số lượng.
  • Chuyển đổi: nối bảng POS với CRM theo mã khách hàng.
  • Chuẩn hóa: loại cột thừa, chuẩn hóa mã khu vực.
  • Làm sạch: xử lý đơn hàng trùng, thiếu giá trị.
  • Tạo thêm: thêm biến “giá trị trung bình/đơn”.
  • Xác thực: kiểm tra tổng doanh thu có khớp báo cáo kế toán.
  • Xuất bản: tạo bảng dữ liệu cuối để phân tích KPI.

Kết luận

Quy trình sắp xếp dữ liệu giúp đảm bảo dữ liệu đúng, sạch và có cấu trúc, tạo nền tảng vững chắc cho mọi phân tích phía sau.