白话大数据与机器学习
上QQ阅读APP看书,第一时间看更新

4.1 加和值、平均值和标准差

上学是每个人几乎都经历过的过程,拿来做例子也许会更加亲切。

假设在一所高中,有3个年级,每个年级有10个班,每个班有40到60个学生不等。要对这些老师和学生进行管理喊口号是不好使的,作为学校的教学主任,他需要了解这些学生的学习情况,知道学生学习成绩的变化,老师教学水平的高低,以及调整的方式(图4-1)。

最早的考试不知道是哪位聪明人发明的,因为考试是一种天然有着“数字化管理”基因的东西,天然就是一种指标坯子。例如,一次学校期末考试以后,所有的学生成绩都汇总上来,假设考试的科目有语文、数学、英语3个学科,一个包含1000多个学生的四五千个单位的数据就会摆在这位教学主任的眼前(图4-2)。

倘若你现在就是这位教学主任,需要你和校长汇报一下这次考试各班的情况如何,你会怎么办?

图4-1 学生管理

图4-2 学生成绩汇总

把所有的学生的每一门课的成绩都逐个给校长读一遍?恐怕是要花费太多的时间,搞不好开始汇报还没有3分钟校长已经睡着了。

icon2

4.1.1 加和值

这里插入一段小小的联想,想想平时到超市里购物最后在收银台做了什么事情。收银员把每件货品的价格加和,不管是10件还是20件还是更多,最终只给出一个价格的合计值。顾客按照这个合计值付账一次性结束整个交易,而这显然是比对每件货品都单独结算一次的时间成本低很多的。这里面用到统计学的知识了吗?用到了,只是它太稀松平常了以至于人们几乎没有意识到而已。这种用一个加和值来概括性地描述一群事物的方法几乎不需要教学就能直观地实现早市上那些即便没有什么学历的菜贩也不用非要找个数学老师来系统教学一下或者深造一个统计学专业的文凭才能开始给买菜大妈们报价和卖菜吧。所以使用一个性状数值的加和值来对一群事物进行描述是一种非常自然的描述方式(图4-3图片来源于百度图库。),这简直太棒了。

图4-3 价格加和

这种例子其实到处都是,如平时说的GDP(Gross Domestic Product,国内生产总值,我们常常口口相传的国民生产总值实际是GNP——Gross National Product),再如“上个月我出差一共花了2000元”,这都是非常典型的用总和值来进行概括描述的例子。人们不需要具体阐述千万个工厂每个工厂有多大产值,千万家公司每家公司有多大产值;或者出差吃某一顿饭花了多少钱,坐出租车某一次花了多少钱,这种细节的陈述太繁琐。这就是人们从加和值描述中得到的最大好处——直奔主题,只关心人们最关心的总和数字,忽略里面的细节。通常把加和值的概念用希腊字母∑来表示,读作“西格玛”,后面还会经常碰到这个标记。

然后再回来看一下教学主任的问题。是不是也可以很自然地先想到,干脆用一个加和值来描述,这一个班所有的学生所有的成绩加起来一共多少分。如果真的这么做了会出现什么情况?

“一年级一班分数总和9600分,一年级二班分数总和13500分……”这一描述看上去是非常简洁的,但是这种描述带来的信息几乎没有什么价值。可以根据这个数值比较说一年级二班的学生比一年级一班的学生学习好吗?直观去看的话,这种似乎感觉很奇怪,但是怎么个奇怪法呢?

事实上可能是这样,一年级一班有40名学生,每个人3门功课每一门都是80分;一年级二班有60名学生,每个人3门功课每一门都是75分。需要陈述到这个级别才能明确究竟哪个班更好,这显然和我们用简洁数值做描述的初衷背道而驰。对学生成绩的描述如果能够成为对整个班级的成绩概括描述,同时兼有对每个个体的描述,套用现在流行的一句话——“那真是极好的”。有这样一种数吗?有的,如平均值。

icon2

4.1.2 平均值

平均值的计算方法大家肯定很熟悉,我们在学生时代就已经经历过无数的例子。上述例子就是以班级为单位把每个人的每门课程加在一起除以总的学生数量,再除以课程数量。

“一年级一班有40名学生,3门课程平均分为80分”。

“一年级二班有60名学生,3门课程平均分为75分”。

“一年级三班有50名学生,3门课程平均分为80分”。

从这里基本还是能得到一个清晰的感性认识,那就是一年级一班和一年级三班的总体水平是“一样的”,而且他们比一年级二班的水平高。因为在使用平均值进行比较时,实际直观感觉是在对比3个班级中每一个学生个体。

所有这类用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法都叫做“指标”。平均分在这里就是一个很好的指标,因为它用一个简洁的数据定义概括了众多数据的特性。平均值和样本数量(学生数)这两个值就基本可以描述清楚学生分数的高低情况了。在上述例子里,平均分这种指标恐怕不是由某个数学家或者智商殊绝于人的家伙特意发明出来的,而是在生活中由于要进行对象数据的宏观描述而自然而然产生的一种方便的数值计算和描述方法。

另外,指标在很多企事业单位、学术技术领域都有广泛的应用。如证券交易中有很多价格指标——用来描述价格震荡的剧烈程度、价格变化的趋势等;环保领域有PM2.5浓度指标;以及交通警察在测量司机是否酒驾时使用的血液酒精浓度——BAC指标等。图4-4所示为家用多功能环境测量仪器的各种污染指标显示,有甲醛、PM2.5、PM10、VOC和电磁辐射,这些数值化的读数都是指标。

图4-4 污染指标显示

指标的使用有助于我们简练地描述对象。再回到班级成绩统计的例子。

“一年级一班有40名学生,3门课程平均分为80分”。

“一年级二班有60名学生,3门课程平均分为75分”。

“一年级三班有50名学生,3门课程平均分为80分”。

从这组数据来看,基本可以得到一个印象,就是一年级一班的成绩“普遍”比一年级二班“好”,至少是从“宏观体现”上看比二班好,它和一年级三班“一样好”。但是一年级一班和一年级三班这两个班的每个人的成绩都是一样的吗?至少人数是不一样的。那么也许还需要进一步地描述这平均下来的80分和每个学生具体的课程分数之间的差异性有多大,这就涉及另一个描述的需求——标准差。

icon2

4.1.3 标准差

我们先上公式,标准差公式如下:

下面解释一下这个公式的含义。

我们以一年级一班所有40个学生为例,那么3门考试的情况下全班就有120个分数参与统计,也就是n=120。把每个学生每门课的成绩减去全班的3个学科总的平均分80分,这样得到120个差值,再把这些差值分别平方(主要是为了去掉负数,因为在分数差距里面,不管是比这个平均值多,还是比这个平均值少,都被视为偏差),将这些平方的结果再加和,之后除以参与统计的学科数量120,最后开平方,这个数字只可能是一个大于等于零的数字。用汉字描述起来很啰嗦,但是一旦变成一个标准差的指标以后,由于是约定俗成的,所以只需要“标准差”这3个字就能表示了。

这个数字表示的是什么含义?从这个数字得到的过程其实不难看出来。

如果所有的人的所有课程成绩都是和平均分一样,那么算出来的标准差就是0,因为每一个肯定都是02;反之,如果所有的人的课程成绩与平均分的差距都很大,好的很好,差的很差,那么结果就是这个值会很大。如果一个班级成绩标准差比另一个班级成绩的标准差小,说明学生之间的考试成绩水平差不多,标准差大则说明学生之间的考试成绩水平相差比较大。

需要说明的是,一般来说为了在教学战术指导层面让平均值和标准差更有针对性,通常是不会像例子里这样来操作的。更多的是以一个班为单位,求班里某一个学科成绩的平均值和标准差,或者求某一个学生所有学科的平均值和标准差。这两种计算分别用来描述一个教师教学的成果和某个学生的成绩以及偏科的程度。

例如,“一年级三班有50名学生,英语考试平均分为80分,标准差为4.25”,“张三同学,语文、数学、英语三门课的平均分为90分”。

前者能够反映教授这个班的英语教师的教学情况,后者能够反映张三这名学生的各学科学习情况——当然都是粗犷的概述性描述。

加和值(总和值)、平均值、标准差,这几个值是在生产生活中大量应用的统计学指标。不过在此需要强调的是,也是很容易被人误读的地方。那就是,平均值、标准差是客观的计算结果,是描述性的说明,但是绝非对比和评价的标准。

不少人认为,某学校某老师的学生的高考平均分比另一学校另一老师的学生平均分要高,这一定说明这个学校这个老师的教学水平要高。这个因果关系不一定是正确的,因为一旦在生活中应用,客观场景的细节会让这种对比变得毫无意义。虽然从广大家长的视角去看,不管怎么样,只要有选择的余地,比较两个班的平均成绩来判断自己的孩子进入哪个班未来会更有利是有道理的。

举个反例。如果这两个学校的老师的生源本身就有很悬殊的差距:一个老师的学生平均分都在80分左右,只能上一般的大学;另一个老师则有不少85分以上的学生,还有大量60、70分的“关系户”学生,如图4-5所示。那么或许后者的班级里诞生清华北大的学生的可能性还会比前一个班更大也未可知。

图4-5 学生水平悬殊

图4-5 (续)

所以,请读者注意,平均分、标准差只能做描述用,只是一种简洁的描述方法,最多只能帮助我们让数据宏观的“画面感”更饱满。它们既不是对比的标尺,也不是用来具体做规则制定用的硬性尺度,更不能用来孤立地评价好坏,因为“好坏”这种含有大量主观判断色彩以及个性化好恶的东西本身就很抽象而且标准繁多。