Bài 2: Tư duy tổ chức dữ liệu chuẩn trong bảng tính
Bài 2: Tư duy tổ chức dữ liệu chuẩn trong bảng tính
Trong bài này, chúng ta tập trung vào nền tảng quan trọng nhất trước khi viết công thức: dữ liệu phải chuẩn.
Mục tiêu:
- Nhận diện dữ liệu “bẩn” thường gặp trong Google Sheet.
- Biết cách tổ chức dữ liệu để dễ lọc, dễ tổng hợp, dễ dashboard.
- Thực hành trên bộ dữ liệu trước/sau chuẩn hóa ngay trong cùng 1 file.
Vì sao dữ liệu chuẩn quan trọng?
Nếu dữ liệu không chuẩn, công thức đúng vẫn cho kết quả sai.
Các vấn đề phổ biến:
- Trùng mã đơn.
- Ngày tháng mỗi dòng một kiểu.
- Số tiền lẫn dấu phẩy/dấu chấm/khoảng trắng.
- Trạng thái viết hoa-thường lộn xộn.
- Email sai định dạng.
Kết quả: báo cáo lệch, pivot sai, team mất thời gian sửa lỗi.
7 nguyên tắc tổ chức dữ liệu chuẩn
- Mỗi cột 1 ý nghĩa (không trộn nhiều thông tin trong 1 cột).
- Header rõ ràng, không merge.
- Mỗi cột 1 kiểu dữ liệu (text/số/ngày tách riêng).
- Có khóa định danh (ví dụ order_id).
- Chuẩn hóa text (TRIM, LOWER/UPPER/PROPER).
- Chuẩn hóa giá trị danh mục (region, status theo tập giá trị cố định).
- Thêm cột kiểm tra chất lượng (is_valid_email, is_duplicate_order).
Demo before/after trong cùng 1 Google Sheet
Bạn dùng link read-only này để xem demo, sau đó File → Make a copy để thực hành:
- Demo file (read-only): https://docs.google.com/spreadsheets/d/1QGSmLFt6or9q9mexK_2EANvr8TFwLE0ftjcefJ66ufE/edit?usp=sharing
Các sheet trong file:
Raw_Before: dữ liệu thô, cố tình có lỗi.Clean_After: dữ liệu đã chuẩn hóa.Practice: dữ liệu để bạn tự xử lý.Checklist: checklist rà soát chất lượng dữ liệu.Hướng dẫn từng bước: hướng dẫn chi tiết bằng tiếng Việt để chuyển từ Raw_Before sang Clean_After.
So sánh nhanh: Raw_Before vs Clean_After
Bạn sẽ thấy các thay đổi chính:
order_id: bỏ khoảng trắng, về kiểu số logic.created_at: cố gắng đưa về định dạng chuẩnyyyy-mm-dd.full_name: loại bỏ khoảng trắng dư, chuẩn hóa cách viết.email: về lowercase, đánh dấu dòng email không hợp lệ.region,status: chuẩn hóa về tập giá trị nhất quán.revenue_vnd: bỏ ký tự phân tách và đưa về số.
Đây là bước bắt buộc trước khi làm SUMIFS, QUERY, Pivot hay Dashboard.
Flow thực hành đề xuất
- Mở
Raw_Before, đọc nhanh các lỗi dữ liệu. - Sao chép logic để làm sạch trong
Practice. - Đối chiếu kết quả với
Clean_After. - Tick lại
Checklistđể không sót lỗi.
Gợi ý công cụ nên dùng:
- TRIM, LOWER, UPPER, PROPER
- SUBSTITUTE, REGEXREPLACE
- IF, IFERROR
- COUNTIF (kiểm tra trùng)
Layout học 60 phút cho Bài 2
1) Lecture (15 phút)
- 5 phút: tư duy dữ liệu chuẩn và lỗi thường gặp.
- 7 phút: walkthrough file
Raw_BeforevàClean_After. - 3 phút: hướng dẫn checklist thực hành.
2) Thực hành có hướng dẫn (30 phút)
- Chuẩn hóa các cột text, ngày, số tiền.
- Tạo cờ
is_valid_email,is_duplicate_order. - Kiểm tra kết quả theo từng checkpoint.
3) Thực hành tự làm (15 phút)
- Làm lại trên sheet
Practicemà không nhìn đáp án. - Tự so sánh với
Clean_Aftervà ghi chú điểm chưa khớp.
Kết thúc Bài 2
Sau bài này, bạn sẽ:
- Có tư duy tổ chức dữ liệu trước khi viết công thức.
- Biết phát hiện nhanh dữ liệu bẩn trong file vận hành thật.
- Có checklist chuẩn để giảm lỗi báo cáo.
Bài tiếp theo, chúng ta đi vào công thức nền tảng cho công việc hằng ngày (IF, SUMIFS, COUNTIFS, lookup cơ bản).