箱须图,也称为箱线图,是沿着数轴从最小到最大总结数据集的图形,以显示数据项如何分布。在学习有关箱线图的课程之前,您可能需要了解中位数是什么。
基本上,箱须图看起来像下面的图表。正如其名称所暗示的,箱线图有两个主要组成部分:中间的箱体和两侧的胡须。
现在我们之所以称从盒子边缘延伸的两条线为“胡须”,只是因为它们看起来像胡须或胡须,尤其是猫的胡须。
盒子和胡须图的五个部分
您在图中看到的五个点或圆点代表箱须图的五个部分,这些部分是最小值、下四分位数、中位数、上四分位数和最大值。
- 这 最低限度,也称为下极值,是一组数据中的最低值或最小值。
- 这 下四分位数,也称为第一四分位数或 Q1,是低于中位数的所有数据的中位数。下四分位数也可以称为下半部分的中位数。
- 这 中位数,也称为第二四分位数或 Q2 是数据集的中间值。如果中间有两个值,则中位数是这两个值的平均值。中位数也可以称为中间四分位数。
- 这 上四分位数,也称为第三四分位数或 Q3,是高于中位数的所有数据的中位数。上四分位数也可以称为上半部分的中位数。
- 这 最大限度也称为上极值,是一组数据中的最高值。
一些有用术语的定义
四分位数范围
四分位数间距 (IQR) 是第三个四分位数和第一个四分位数之间的差值。
四分位数间距 = Q3 – Q1
下内栅栏
下内栅栏是第一个四分位数或 Q1 以下 1.5 × IQR 的点。
下外围栏
下外栅栏是第一个四分位数或 Q1 以下 3 × IQR 的点。
上部内围栏
上部内栅栏是第三个四分位数 Q3 以上 1.5 × IQR 的点。
上外围栏
上外栅栏是第三个四分位数或 Q3 以上 3 × IQR 的点。
异常值或极值
与一组数据中的大多数值相比非常大或非常小的值称为离群值或极值。我们使用星号在盒须图上显示这一点。
如果一个值在两个内栅栏之外,但在两个外栅栏内,则该值是 轻度异常值。
如果一个值在两个外栅栏之外,则该值是 极端异常值。
如何制作盒子和胡须图
按照以下五个步骤构建或制作箱须图
- 将数据按升序排列,然后计算中位数、第一四分位数、第三四分位数和四分位数间距。
- 创建包含第一个四分位数、中位数和第三个四分位数的框。在方框内,在中线位置画一条垂直线。
- 找到下部和上部内围栏,如有必要,找到下部和上部外围栏。
- 查找数据集中位于下内栅栏和上内栅栏内的最小值和最大值。
- 使用最小值和最大值来绘制胡须。然后,用星号显示落在两个内栅栏之外的任何异常值或值。
展示如何创建箱须图的示例
例子#1
为数据集构建箱须图:{5, 2, 16, 9, 13, 7, 10}
步骤1
首先,您必须将数据集按从小到大的顺序排列。
从最小到最大我们得到:2 5 7 9 10 13 16
仔细查看该集合,我们会发现 9 位于该数据集的正中间。
因此,9 是 中位数。
现在要获得第一个四分位数,您需要中位数或 9 之前的所有数据。
2 5 7 9 10 13 16
上面的红色部分显示了 9 之前的所有数据,所以 2 5 7
由于集合 2 5 7 中间的值为 5,因此 第一个四分位数 或 Q1 为 5。
要获得第三个四分位数,您需要中位数或 9 之后的所有数据。
2 5 7 9 10 13 16
上面的红色部分显示了 9 之后的所有数据,所以 10 13 16
由于集合 10 13 16 中间的值为 13,因此 第三个四分位数 或者 Q3 是 13。
查找四分位距 (IQR)
IQR = 13 – 5 = 8
步骤2
使用第一个四分位数、中位数和第三个四分位数创建框。在方框内,在中线位置画一条垂直线。
步骤3
找到下部和上部的内部围栏。
1.5 × IQR = 1.5 × 8 = 12
下内栅栏 = 5 – 12 = -7
上内栅 = 13 + 12 = 25
步骤4
注意,2 大于 -7,16 小于 25。数据集中位于下内栅栏和上内栅栏内的最小值和最大值分别为 2 和 16。因此,最小值为 2,最大值为 16。
步骤5
使用最小值和最大值来添加胡须。
最后,绘制将所有五个点连接在一起的水平线段或胡须。完成后您的图表应该如下所示。 {5, 2, 16, 9, 13, 7, 10} 的箱须图如下图所示。
如何创建带有异常值的箱须图
例子#2
为数据集构建箱须图:{5, 26, 2, 1, 9, 13, 7, 10, 17, 8, 12}
步骤1
首先,您必须将数据集按从小到大的顺序排列。
从最小到最大我们得到:
1 2 5 7 8 9 10 12 13 17 26
中位数为 9,第一个四分位数为 5,第三个四分位数为 13。
四分位数 = 13 – 5 = 8
步骤2
通过将中位数、第一个四分位数和第三个四分位数放在数轴上来创建一个框,就像之前所做的那样。
步骤3
找到下部和上部的内部围栏。
1.5 × IQR = 1.5 × 8 = 12
下内栅栏 = 5 – 12 = -7
上内栅 = 13 + 12 = 25
步骤4
注意,1 大于 -7,17 小于 25。数据集中位于下内栅栏和上内栅栏内的最小值和最大值分别为 1 和 17。因此,最小数是 1,最大数是 17。
步骤5
使用最小值和最大值来添加胡须。
上内栅栏为 25。因此,26 是异常值,因为它比上内栅栏大。最后,绘制将所有五个点连接在一起的水平线段或胡须。用星号显示异常值。
您可以清楚地看到 26 远远大于数据集的其他值。完成后,您的图表应如下所示。