Quick Answer
Trong bài thi Digital SAT, giá trị ngoại lai (outlier) là một điểm dữ liệu khác biệt đáng kể (cực lớn hoặc cực nhỏ) so với phần còn lại của tập dữ liệu. Việc nhận diện giá trị ngoại lai (outlier) giúp học sinh đánh giá chính xác sự thay đổi của trung bình cộng (mean) và độ lệch chuẩn (standard deviation).
Giá trị ngoại lai là một quan sát nằm cách xa các giá trị khác trong một mẫu số liệu thống kê. Trong chương trình Toán THPT, khái niệm này thường được xác định dựa trên khoảng biến thiên tứ phân vị (interquartile range) để loại bỏ các sai số gây nhiễu.
A data set contains the following values: 4, 5, 5, 6, 7, 8, 45. If the outlier 45 is removed from the data set, which of the following statistical measures will decrease the most? (A) Median (B) Mean (C) Mode (D) Interquartile Range. Giải: Trong tập dữ liệu này, 45 là giá trị ngoại lai (outlier) vì nó lớn hơn hẳn các số còn lại. Khi loại bỏ 45, tổng của các giá trị giảm mạnh, dẫn đến trung bình cộng (mean) giảm đáng kể. Trung vị (median) vẫn sẽ giữ nguyên hoặc thay đổi rất ít quanh giá trị 5 và 6. Do đó, đáp án đúng là (B).
Lỗi 1: Cho rằng giá trị ngoại lai (outlier) luôn làm thay đổi trung vị (median) một cách đáng kể.
Lỗi 2: Nhầm lẫn rằng giá trị ngoại lai (outlier) không ảnh hưởng đến độ lệch chuẩn (standard deviation).
Lỗi 3: Quên không kiểm tra cả hai đầu của tập dữ liệu (số quá nhỏ cũng có thể là outlier).
Học sinh muốn đạt 750+ cần biết rằng khi một tập dữ liệu có giá trị ngoại lai (outlier) nằm ở phía bên phải (giá trị cực lớn), trung bình cộng (mean) thường sẽ lớn hơn trung vị (median). Ngược lại, nếu outlier nằm ở phía bên trái (giá trị cực nhỏ), mean sẽ nhỏ hơn median.
Biểu đồ hộp (Box Plot)
Biểu đồ hộp (Box Plot) là một công cụ trực quan hóa dữ liệu quan trọng trong Digital SAT, dùng để tóm tắt phân phối của một tập dữ liệu qua 5 chỉ số: giá trị nhỏ nhất (minimum), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ ba (Q3) và giá trị lớn nhất (maximum). Nó giúp xác định nhanh độ phân tán (spread) và các giá trị ngoại lai (outliers).
Giá trị trung bình (Mean)
Giá trị trung bình (Mean) là thương số của tổng các giá trị chia cho số lượng phần tử trong một tập dữ liệu. Trong bài thi Digital SAT, khái niệm này xuất hiện thường xuyên trong phần Phân tích dữ liệu (Data Analysis), yêu cầu thí sinh tính toán hoặc suy luận về sự thay đổi của trung bình cộng (arithmetic mean) khi dữ liệu biến động.
Trung vị (Median)
Trung vị (Median) là giá trị nằm chính giữa của một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần hoặc giảm dần. Trong bài thi Digital SAT, trung vị là khái niệm then chốt thuộc phần Phân tích dữ liệu (Data Analysis), dùng để xác định xu hướng trung tâm của một mẫu số liệu mà không bị ảnh hưởng bởi các giá trị cực đoan.
Khoảng biến thiên (Range)
Khoảng biến thiên (Range) trong Digital SAT là hiệu số giữa giá trị lớn nhất (maximum) và giá trị nhỏ nhất (minimum) trong một tập dữ liệu. Đây là thước đo đơn giản nhất về độ phân tán (spread), giúp thí sinh đánh giá nhanh phạm vi bao phủ của các con số trong các bài toán thống kê.
Độ lệch chuẩn (Standard Deviation)
Trong bài thi Digital SAT, độ lệch chuẩn (standard deviation) là thước đo mức độ phân tán của các giá trị trong một tập dữ liệu so với giá trị trung bình (mean). Một tập dữ liệu có độ lệch chuẩn (standard deviation) lớn khi các giá trị nằm xa giá trị trung bình, và nhỏ khi các giá trị tập trung sát giá trị trung bình.
Trong SAT, outlier là những giá trị 'lạc loài', nằm tách biệt hẳn so với đám đông trên biểu đồ chấm (dot plot) hoặc bảng số liệu. Chúng thường được đưa vào để kiểm tra xem học sinh có hiểu được độ nhạy cảm của các chỉ số thống kê đối với các giá trị cực đoan hay không.
Trên biểu đồ chấm (dot plot) hoặc biểu đồ tần suất (histogram), outlier là những điểm nằm lẻ loi ở hai đầu trục số. Trên biểu đồ hộp (box plot), outlier thường được ký hiệu bằng các dấu chấm hoặc dấu sao nằm ngoài các đường râu (whiskers) của hộp.
Outlier là một điểm dữ liệu cụ thể, trong khi khoảng biến thiên (range) là hiệu số giữa giá trị lớn nhất và nhỏ nhất. Tuy nhiên, vì range phụ thuộc trực tiếp vào giá trị lớn nhất và nhỏ nhất, nên sự xuất hiện của một outlier sẽ làm tăng range một cách đáng kể.
Thông thường sẽ có từ 1 đến 2 câu hỏi liên quan đến khái niệm này trong mỗi bài thi Digital SAT Math. Câu hỏi có thể yêu cầu bạn so sánh mean và median khi có sự hiện diện của outlier hoặc dự đoán sự thay đổi khi loại bỏ nó.