Bài 5: Làm sạch và chuẩn hóa dữ liệu nâng cao
Bài 5: Làm sạch và chuẩn hóa dữ liệu nâng cao
Ở bài này, bạn sẽ xử lý bộ dữ liệu bẩn theo kiểu thường gặp trong vận hành thực tế: sai email, phone lẫn ký tự, ngày nhiều định dạng, salary lỗi, status không hợp lệ.
Mục tiêu:
- Chuẩn hóa dữ liệu text/số/ngày về format nhất quán.
- Tạo cờ kiểm tra chất lượng dữ liệu quan trọng.
- Tổng hợp lỗi bằng
issue_noteđể team xử lý nhanh.
Vì sao cần làm sạch nâng cao?
Nếu bỏ qua bước làm sạch:
- Pivot và dashboard cho số sai.
- Lookup bị trượt vì khóa không chuẩn.
- Team mất thời gian sửa lỗi thủ công từng dòng.
Làm sạch tốt giúp bạn dùng lại dữ liệu cho báo cáo tuần/tháng mà không vỡ công thức.
Bộ công thức trọng tâm trong Bài 5
- Chuẩn hóa text:
TRIM,PROPER,LOWER,UPPER,REGEXREPLACE - Kiểm tra email:
REGEXMATCH - Chuẩn hóa ngày đa định dạng:
SPLIT,SUBSTITUTE,DATE,TEXT - Chuẩn hóa số tiền:
VALUE,IFERROR - Kiểm tra status hợp lệ:
OR - Gom lỗi dữ liệu:
TEXTJOIN
Demo before/after (read-only)
Bạn mở file read-only này để xem demo, rồi vào File → Make a copy để thực hành:
- Demo file (read-only): https://docs.google.com/spreadsheets/d/1T8bbOaJbPjgG_OFbDuN5Zu9-2deetnfJr_DHpTBE0uo/edit?usp=sharing
Các tab trong file:
Raw_Before: dữ liệu thô cố tình có lỗi.Clean_After: giữ dữ liệu gốc + cột làm sạch từL:X.Practice: dữ liệu để bạn tự xử lý lại.Checklist: checklist chất lượng đầu ra.Hướng dẫn từng bước: hướng dẫn cực chi tiết theo từng cột.
Logic before/after của bài
Trong Clean_After:
A:J: giữ nguyên dữ liệu thô để đối chiếu.L:X: tạo dữ liệu sạch và cờ kiểm tra.
Các đầu ra chính:
full_name_clean,email_clean,phone_cleandob_clean,city_clean,salary_num,joined_date_cleanis_valid_email,is_valid_statusissue_noteđể đánh dấu dòng lỗi
Case lỗi thực tế bạn sẽ xử lý
- Email sai định dạng (
binh.tran#mail.com,duong.pham@gmail). - Salary chứa text (
abc) không ép thành số được. - Status ngoài tập cho phép (
unknown). - City viết nhiều kiểu (
hcm,TP.HCM,hanoi,HN).
Mục tiêu là biến dữ liệu bẩn thành dữ liệu dùng được ngay cho tổng hợp và trực quan hóa.
Flow thực hành đề xuất
- Đọc lỗi trong
Raw_Before. - Ở
Clean_After, làm sạch từ cộtLđếnV. - Tạo cờ kiểm tra ở
O,W. - Ghép
issue_noteở cộtX. - Dùng
Checklistđể tự chấm chất lượng. - Làm lại từ đầu trên
Practice.
Layout học 60 phút cho Bài 5
1) Lecture (15 phút)
- 5 phút: các loại dữ liệu bẩn thường gặp.
- 7 phút: walkthrough từng công thức clean chính.
- 3 phút: cách đọc
issue_noteđể xử lý backlog dữ liệu.
2) Thực hành có hướng dẫn (30 phút)
- Làm theo tab
Hướng dẫn từng bước. - Hoàn thành toàn bộ cột
L:X. - Đối chiếu theo checkpoint.
3) Thực hành tự làm (15 phút)
- Làm lại trên tab
Practicekhông nhìn đáp án. - Tự so sánh với
Clean_After.
Kết thúc Bài 5
Sau bài này, bạn sẽ:
- Làm sạch được bộ dữ liệu bẩn ở mức nâng cao.
- Biết đánh dấu lỗi để quản trị chất lượng dữ liệu theo quy trình.
- Có bảng dữ liệu sạch sẵn sàng cho Pivot, Dashboard và phân tích sâu hơn.
Bài tiếp theo, chúng ta sẽ đi vào tổng hợp dữ liệu bằng Pivot Table.