Bài 2: Tư duy tổ chức dữ liệu chuẩn trong bảng tính

Trong bài này, chúng ta tập trung vào nền tảng quan trọng nhất trước khi viết công thức: dữ liệu phải chuẩn.

Mục tiêu:

  • Nhận diện dữ liệu “bẩn” thường gặp trong Google Sheet.
  • Biết cách tổ chức dữ liệu để dễ lọc, dễ tổng hợp, dễ dashboard.
  • Thực hành trên bộ dữ liệu trước/sau chuẩn hóa ngay trong cùng 1 file.

Vì sao dữ liệu chuẩn quan trọng?

Nếu dữ liệu không chuẩn, công thức đúng vẫn cho kết quả sai.

Các vấn đề phổ biến:

  • Trùng mã đơn.
  • Ngày tháng mỗi dòng một kiểu.
  • Số tiền lẫn dấu phẩy/dấu chấm/khoảng trắng.
  • Trạng thái viết hoa-thường lộn xộn.
  • Email sai định dạng.

Kết quả: báo cáo lệch, pivot sai, team mất thời gian sửa lỗi.

7 nguyên tắc tổ chức dữ liệu chuẩn

  1. Mỗi cột 1 ý nghĩa (không trộn nhiều thông tin trong 1 cột).
  2. Header rõ ràng, không merge.
  3. Mỗi cột 1 kiểu dữ liệu (text/số/ngày tách riêng).
  4. Có khóa định danh (ví dụ order_id).
  5. Chuẩn hóa text (TRIM, LOWER/UPPER/PROPER).
  6. Chuẩn hóa giá trị danh mục (region, status theo tập giá trị cố định).
  7. Thêm cột kiểm tra chất lượng (is_valid_email, is_duplicate_order).

Demo before/after trong cùng 1 Google Sheet

Bạn dùng link read-only này để xem demo, sau đó File → Make a copy để thực hành:

  • Demo file (read-only): https://docs.google.com/spreadsheets/d/1QGSmLFt6or9q9mexK_2EANvr8TFwLE0ftjcefJ66ufE/edit?usp=sharing

Các sheet trong file:

  • Raw_Before: dữ liệu thô, cố tình có lỗi.
  • Clean_After: dữ liệu đã chuẩn hóa.
  • Practice: dữ liệu để bạn tự xử lý.
  • Checklist: checklist rà soát chất lượng dữ liệu.
  • Hướng dẫn từng bước: hướng dẫn chi tiết bằng tiếng Việt để chuyển từ Raw_Before sang Clean_After.

So sánh nhanh: Raw_Before vs Clean_After

Bạn sẽ thấy các thay đổi chính:

  • order_id: bỏ khoảng trắng, về kiểu số logic.
  • created_at: cố gắng đưa về định dạng chuẩn yyyy-mm-dd.
  • full_name: loại bỏ khoảng trắng dư, chuẩn hóa cách viết.
  • email: về lowercase, đánh dấu dòng email không hợp lệ.
  • region, status: chuẩn hóa về tập giá trị nhất quán.
  • revenue_vnd: bỏ ký tự phân tách và đưa về số.

Đây là bước bắt buộc trước khi làm SUMIFS, QUERY, Pivot hay Dashboard.

Flow thực hành đề xuất

  1. Mở Raw_Before, đọc nhanh các lỗi dữ liệu.
  2. Sao chép logic để làm sạch trong Practice.
  3. Đối chiếu kết quả với Clean_After.
  4. Tick lại Checklist để không sót lỗi.

Gợi ý công cụ nên dùng:

  • TRIM, LOWER, UPPER, PROPER
  • SUBSTITUTE, REGEXREPLACE
  • IF, IFERROR
  • COUNTIF (kiểm tra trùng)

Layout học 60 phút cho Bài 2

1) Lecture (15 phút)

  • 5 phút: tư duy dữ liệu chuẩn và lỗi thường gặp.
  • 7 phút: walkthrough file Raw_BeforeClean_After.
  • 3 phút: hướng dẫn checklist thực hành.

2) Thực hành có hướng dẫn (30 phút)

  • Chuẩn hóa các cột text, ngày, số tiền.
  • Tạo cờ is_valid_email, is_duplicate_order.
  • Kiểm tra kết quả theo từng checkpoint.

3) Thực hành tự làm (15 phút)

  • Làm lại trên sheet Practice mà không nhìn đáp án.
  • Tự so sánh với Clean_After và ghi chú điểm chưa khớp.

Kết thúc Bài 2

Sau bài này, bạn sẽ:

  • Có tư duy tổ chức dữ liệu trước khi viết công thức.
  • Biết phát hiện nhanh dữ liệu bẩn trong file vận hành thật.
  • Có checklist chuẩn để giảm lỗi báo cáo.

Bài tiếp theo, chúng ta đi vào công thức nền tảng cho công việc hằng ngày (IF, SUMIFS, COUNTIFS, lookup cơ bản).