Tổng quan

Làm sạch dữ liệu thường gặp nhiều loại giá trị khác nhau. Việc nhận diện đúng sẽ giúp bạn xử lý nhanh và giảm sai lệch khi phân tích.

Giá trị thiếu

Cách xử lý phổ biến:

  • Loại bỏ bản ghi (filter) nếu thiếu quá nhiều.
  • Ước tính (calculate) dựa trên thống kê.

Ví dụ:

  • Thiếu tuổi khách hàng: điền trung vị của nhóm tuổi.
  • Thiếu doanh thu ngày: nội suy từ trung bình 7 ngày.
  • Thiếu giới tính: bỏ trường này nếu không cần phân tích.

Giá trị không chính xác hoặc trùng lặp

Cách xử lý phổ biến:

  • Loại bỏ dữ liệu sai.
  • Gộp hoặc xóa bản ghi trùng.

Ví dụ:

  • Giá trị -10 ở cột số lượng là sai.
  • Một khách hàng xuất hiện 2 lần cùng mã và ngày.
  • Đơn hàng test bị lẫn vào dữ liệu thật.

Giá trị không liên quan (irrelevant)

Cách xử lý phổ biến:

  • Loại bỏ dữ liệu không đúng ngữ cảnh.

Ví dụ:

  • Khách hàng nội bộ trong dữ liệu bán hàng.
  • Chiến dịch marketing đã kết thúc từ năm trước.
  • Trường ghi chú tự do không dùng cho phân tích.

Không đồng nhất: Kiểu dữ liệu và đơn vị

Cách xử lý phổ biến:

  • Chuyển kiểu dữ liệu (convert).
  • Chuẩn hóa đơn vị (standard).

Ví dụ:

  • Doanh thu có nơi ghi VND, có nơi ghi USD.
  • Ngày tháng trộn lẫn dd/mm/yyyyyyyy-mm-dd.
  • Cột số tiền lưu dưới dạng chuỗi.

Không đồng nhất: Cú pháp

Cách xử lý phổ biến:

  • Loại khoảng trắng thừa.
  • Sửa lỗi chính tả.

Ví dụ:

  • Ho Chi MinhHồ Chí Minh là một giá trị.
  • ` Hà Nội` có dấu cách đầu dòng.
  • Nha Trang bị ghi sai thành NhaTrag.

Ngoại lệ (outlier)

Cách xử lý phổ biến:

  • Xác định giá trị khác biệt lớn và xem lại nguyên nhân.

Ví dụ:

  • Một đơn hàng có giá trị gấp 100 lần trung bình.
  • Lượng truy cập tăng đột biến vì chiến dịch.
  • Một khách hàng đặt hàng liên tục trong 1 ngày.

Kết luận

Nhận diện đúng các loại giá trị cần xử lý giúp dữ liệu sạch hơn và kết quả phân tích đáng tin cậy hơn.