Quick Answer
Biểu đồ hộp (Box Plot) là một công cụ trực quan hóa dữ liệu quan trọng trong Digital SAT, dùng để tóm tắt phân phối của một tập dữ liệu qua 5 chỉ số: giá trị nhỏ nhất (minimum), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ ba (Q3) và giá trị lớn nhất (maximum). Nó giúp xác định nhanh độ phân tán (spread) và các giá trị ngoại lai (outliers).
Biểu đồ hộp cung cấp cái nhìn tổng quát về hình dạng và độ trải rộng của dữ liệu dựa trên các khoảng tứ phân vị. Trong chương trình Toán THPT Việt Nam, khái niệm này tương ứng với phần Thống kê lớp 10, tập trung vào các số đặc trưng đo xu thế trung tâm và độ lệch.
Question: The box plots below summarize the distribution of heights, in inches, for two groups of students. Group A has a median height of 65 inches and an interquartile range of 6 inches. Group B has a median height of 68 inches and an interquartile range of 4 inches. Which group has a higher typical height and which group's heights are more consistent? Giải: Trong SAT, 'typical height' thường ám chỉ trung vị (median). Vì trung vị của Nhóm B (68) lớn hơn Nhóm A (65), nên Nhóm B có chiều cao điển hình cao hơn. 'Consistency' (sự nhất quán) ám chỉ độ phân tán thấp. Vì Nhóm B có khoảng tứ phân vị (IQR = 4) nhỏ hơn Nhóm A (IQR = 6), nên chiều cao của Nhóm B tập trung sát nhau hơn, tức là nhất quán hơn.
Lỗi 1: Nhầm lẫn rằng đoạn dài hơn trong biểu đồ chứa nhiều điểm dữ liệu hơn; thực tế mỗi đoạn luôn chứa 25% dữ liệu.
Lỗi 2: Nhầm vạch ở giữa hộp là số trung bình cộng (mean) thay vì trung vị (median).
Lỗi 3: Quên không tính đến các giá trị ngoại lai (outliers) khi xác định khoảng biến thiên (range) nếu chúng được ký hiệu bằng dấu chấm riêng biệt.
Học sinh muốn đạt 750+ cần biết rằng Box Plot không hiển thị kích thước mẫu (n). Hai biểu đồ có thể trông giống hệt nhau về hình dạng nhưng một biểu đồ có thể đại diện cho 20 người và biểu đồ kia đại diện cho 2000 người. Đừng bao giờ kết luận về số lượng phần tử chỉ dựa vào hình dáng của Box Plot.
Khoảng tứ phân vị (Interquartile Range)
Khoảng tứ phân vị (Interquartile Range - IQR) là một số đo độ phân tán trong thống kê, được tính bằng hiệu số giữa tứ phân vị thứ ba (Q3) và tứ phân vị thứ nhất (Q1). Trong bài thi Digital SAT, IQR giúp xác định mức độ tập trung của 50% dữ liệu ở giữa và là công cụ quan trọng để nhận diện các giá trị ngoại lai (outliers).
Trung vị (Median)
Trung vị (Median) là giá trị nằm chính giữa của một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần hoặc giảm dần. Trong bài thi Digital SAT, trung vị là khái niệm then chốt thuộc phần Phân tích dữ liệu (Data Analysis), dùng để xác định xu hướng trung tâm của một mẫu số liệu mà không bị ảnh hưởng bởi các giá trị cực đoan.
Giá trị ngoại lai (Outlier)
Trong bài thi Digital SAT, giá trị ngoại lai (outlier) là một điểm dữ liệu khác biệt đáng kể (cực lớn hoặc cực nhỏ) so với phần còn lại của tập dữ liệu. Việc nhận diện giá trị ngoại lai (outlier) giúp học sinh đánh giá chính xác sự thay đổi của trung bình cộng (mean) và độ lệch chuẩn (standard deviation).
Khoảng biến thiên (Range)
Khoảng biến thiên (Range) trong Digital SAT là hiệu số giữa giá trị lớn nhất (maximum) và giá trị nhỏ nhất (minimum) trong một tập dữ liệu. Đây là thước đo đơn giản nhất về độ phân tán (spread), giúp thí sinh đánh giá nhanh phạm vi bao phủ của các con số trong các bài toán thống kê.
Trong SAT, Box Plot là dạng biểu đồ dùng để biểu diễn 'Tóm tắt 5 số' (Five-number summary) của một tập dữ liệu. Nó giúp thí sinh so sánh nhanh tính chất của các nhóm dữ liệu khác nhau về giá trị trung tâm (trung vị) và độ biến thiên (khoảng tứ phân vị và khoảng biến thiên) mà không cần tính toán thủ công.
Để đọc Box Plot, hãy nhớ: Hai đầu mút của 'râu' là Min và Max. Hai cạnh dọc của 'hộp' là Q1 (25%) và Q3 (75%). Vạch dọc nằm bên trong hộp chính là trung vị (median). Khoảng cách từ Q1 đến Q3 được gọi là khoảng tứ phân vị (IQR), đại diện cho 50% dữ liệu ở giữa.
Histogram (biểu đồ tần suất) cho thấy hình dạng cụ thể của phân phối và tần suất của từng khoảng giá trị. Ngược lại, Box Plot tập trung vào việc chia dữ liệu thành các phần tư bằng nhau. Box Plot hiệu quả hơn Histogram khi bạn cần so sánh trực quan các chỉ số thống kê của nhiều tập dữ liệu cùng lúc.
Thông thường, mỗi đề thi Digital SAT sẽ có từ 1 đến 2 câu hỏi về Box Plot. Các câu hỏi này thường yêu cầu kỹ năng phân tích và so sánh hơn là tính toán phức tạp, do đó nắm vững cách đọc biểu đồ này là cách dễ dàng để ghi điểm trong phần Data Analysis.