Biểu đồ hộp (Box Plot) là gì? Đặc trưng và ví dụ

Biểu đồ hộp (Box Plot)

Khái niệm

Biểu đồ hộp trong tiếng Anh là Box Plot hay Box and Whisker plot.

Biểu đồ hộp do John Tukey sáng tạo ra năm 1977.

Biểu đồ hộp (Box plot) hay còn gọi là biểu đồ hộp và râu (Box and whisker plot) là biểu đồ diễn tả 5 vị trí phân bổ của tài liệu, đó là: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn số 1 (max).

Đặc trưng của biểu đồ hộp

Biểu đồ hộp giúp trình diễn các đại lượng quan trọng của dãy số như giá trị nhỏ nhất (min), giá trị lớn số 1 (max), tứ phân vị (quartile), khoảng tầm biến thiên tứ phân vị (Interquartile Range) một cách trực quan, dễ hiểu.

– Trên biểu đồ hộp, ngoài các đại lượng số trung bình, trung vị, còn thể hiện một số thông số sau:

(1) Số phân tử hay còn gọi là tứ phân vị (Quartiles): Tứ phân vị là đại lượng mô tả sự phân bổ và sự phân tán của tập tài liệu. Số phân tử có 3 giá trị, đó là số phân tử thứ nhất (Q1), thứ nhì (Q2) và thứ ba (Q3). Ba giá trị này chia một tập hợp tài liệu (đã sắp xếp tài liệu theo trật từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.

Tứ phân vị được xác định như sau:

+ Sắp xếp các số theo trật tự tăng dần

+ Cắt dãy số thành 4 phần bằng nhau

+ Tứ phân vị là các giá trị tại vị trí cắt

(2) Khoảng chừng biến thiên số phân tử (Interquartile Range – IQR) IQR được xác định như sau:

Ví dụ

Xét một ví dụ về việc sử dụng biểu đồ hộp:

Sau này mô tả sử dụng biểu đồ hộp để phân tích, nhận diện vấn đề.

Ví dụ, với số liệu thu thập được về tỉ lệ làm lại (Rework Ratio) trong quá trình sinh sản, (có xmin = 0,0; Q1 = 14,9; x = 19,0; x = 15,8; Q3 = 20,6; xmax =23,2) ta có biểu đồ hộp với hình dáng biểu đồ như sau:

Trung bình tỉ lệ làm lại là 15,8%, trung vị là 19%.

Tài liệu có xu hướng nghiêng nhiều về phía trên giá trị trung bình.

Khoảng chừng số phân tử = Q3 – Q1 = 20,6 – 14,9 = 5,7

Khoảng chừng cách giữa giá trị lớn số 1 và nhỏ nhất là 23,2 – 0 = 23,2.

Nhìn chung, tỉ lệ làm lại cao và quá trình có sự dao động lớn, không ổn định, kiểm soát chất lượng sản phẩm và dịch vụ kém. Tuy nhiên, biểu đồ hộp giúp nhìn trực quan hơn khi so sánh 3 thời đoạn hoặc khu vực khác nhau như hình tại chỗ này:

Nhận xét:

Với ba lần thu thập tài liệu về tỉ lệ làm lại vào thời khắc tháng 11/2011, tháng 3/2012 và tháng 6/2012, tài liệu vào thời khắc tháng 11/2011 cho thấy quá trình kiểm soát lỗi kém vì xu hướng tập trung của tài liệu (trung vị) ở tầm mức cao, độ dao động lớn.

Kiểm soát chất lượng sản phẩm và dịch vụ vào thời khắc tháng 3/2012 là tốt nhất vì tài liệu về tỉ lệ làm lại tập trung ở tầm mức thấp, dao động ở phạm vi hẹp.

(Tài liệu tham khảo: 6 Sigma – Nội dung cơ bản và hướng dẫn vận dụng, NXB Hồng Đức; Box plot review, Khan Academy)

You May Also Like

About the Author: v1000