统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

6.4 箱线图

箱线图提供了展示一个分布的各种特征的详细的视图。箱型从底部水平线展开,低的那条横线是下边沿,代表第25%百分位,高的那条横线是上边沿,代表第75%百分位。在这两边沿连上两条竖线就完成了箱型部分。箱子中间的水平线代表中位值。“+”代表平均值。

两个边沿之间的H型扩展部分是两边沿之间的差距,定义步长为1.5倍的H型扩展。内部的隔栏是边沿之外的一个步长处,外部的隔栏是边沿之外的两个步长处。这些隔栏用于画出须线,即盒子两边的竖线,以内部隔栏为界。“o”表示介于内部隔栏和外部隔栏的每个值。“*”表示该值超出了外部隔栏。图6.1展示了一个对称分布的茎叶图和箱线图。注意,我增加了偏度这个统计量,用于测量分布对称性的不足。偏度是个区间量度。偏度=0意指这个分布是对称的。

如果偏度是正值,则称这个分布是右偏的,或者正偏的,意指这个分布在正的方向上有一条长尾。类似地,如果偏度是负值,则称这个分布是左偏的,或者负偏的,意指这个分布在负的方向上有一条长尾。