Bài 7: Một số loại giá trị cần xử lý khi làm sạch dữ liệu
Tổng quan
Làm sạch dữ liệu thường gặp nhiều loại giá trị khác nhau. Việc nhận diện đúng sẽ giúp bạn xử lý nhanh và giảm sai lệch khi phân tích.
Giá trị thiếu
Cách xử lý phổ biến:
- Loại bỏ bản ghi (filter) nếu thiếu quá nhiều.
- Ước tính (calculate) dựa trên thống kê.
Ví dụ:
- Thiếu tuổi khách hàng: điền trung vị của nhóm tuổi.
- Thiếu doanh thu ngày: nội suy từ trung bình 7 ngày.
- Thiếu giới tính: bỏ trường này nếu không cần phân tích.
Giá trị không chính xác hoặc trùng lặp
Cách xử lý phổ biến:
- Loại bỏ dữ liệu sai.
- Gộp hoặc xóa bản ghi trùng.
Ví dụ:
- Giá trị
-10ở cột số lượng là sai. - Một khách hàng xuất hiện 2 lần cùng mã và ngày.
- Đơn hàng test bị lẫn vào dữ liệu thật.
Giá trị không liên quan (irrelevant)
Cách xử lý phổ biến:
- Loại bỏ dữ liệu không đúng ngữ cảnh.
Ví dụ:
- Khách hàng nội bộ trong dữ liệu bán hàng.
- Chiến dịch marketing đã kết thúc từ năm trước.
- Trường ghi chú tự do không dùng cho phân tích.
Không đồng nhất: Kiểu dữ liệu và đơn vị
Cách xử lý phổ biến:
- Chuyển kiểu dữ liệu (convert).
- Chuẩn hóa đơn vị (standard).
Ví dụ:
- Doanh thu có nơi ghi
VND, có nơi ghiUSD. - Ngày tháng trộn lẫn
dd/mm/yyyyvàyyyy-mm-dd. - Cột số tiền lưu dưới dạng chuỗi.
Không đồng nhất: Cú pháp
Cách xử lý phổ biến:
- Loại khoảng trắng thừa.
- Sửa lỗi chính tả.
Ví dụ:
Ho Chi MinhvàHồ Chí Minhlà một giá trị.- ` Hà Nội` có dấu cách đầu dòng.
Nha Trangbị ghi sai thànhNhaTrag.
Ngoại lệ (outlier)
Cách xử lý phổ biến:
- Xác định giá trị khác biệt lớn và xem lại nguyên nhân.
Ví dụ:
- Một đơn hàng có giá trị gấp 100 lần trung bình.
- Lượng truy cập tăng đột biến vì chiến dịch.
- Một khách hàng đặt hàng liên tục trong 1 ngày.
Kết luận
Nhận diện đúng các loại giá trị cần xử lý giúp dữ liệu sạch hơn và kết quả phân tích đáng tin cậy hơn.