对比Excel,轻松学习Python数据分析(入职数据分析师系列)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 数据分析究竟在分析什么

数据分析的重点在分析,而不在工具,那么我们究竟该分析什么呢?

1.3.1 总体概览指标

总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。

例如,当日销售额为60万元,当日订单量为2万,购买人数是1.5万人,这些都是概览指标,用来反映某个时间段内某项业务的某些指标的绝对量。

我们把经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。

1.3.2 对比性指标

对比性指标是说明现象之间数量对比关系的指标,常见的就是同比、环比、差这几个指标。

同比是指相邻时间段内某一共同时间点上指标的对比,环比就是相邻时间段内指标的对比;差就是两个时间段内的指标直接做差,差的绝对值就是两个时间段内指标的变化量。

例如,2018年和2017年是相邻时间段,那么2018年的第26周和2017年的第26周之间的对比就是同比,而2018年的第26周和第25周的对比就是环比。

1.3.3 集中趋势指标

集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平,通常用平均指标来表示。平均指标分为数值平均和位置平均。例如,某地的平均工资就是一个集中趋势指标。

数值平均是统计数列中所有数值平均的结果,有普通平均数和加权平均数两种。普通平均的所有数值的权重都是1,而加权平均中不同数值的权重是不一样的,在算平均值时不同数值要乘以不同的权重。

假如你要算一年中每月的月平均销量,这个时候一般就用数值平均,直接把12个月的销量相加除以12即可。

假如你要算一个人的平均信用得分情况,由于影响信用得分的因素有多个,而且不同因素的权重占比是不一样的,这个时候就需要使用加权平均。

位置平均是基于某个特殊位置上的数或者普遍出现的数,即用出现次数最多的数值来作为这一系列数值的整体一般水平。基于位置的指标最常用的就是中位数,基于出现次数最多的指标就是众数。

众数是一系列数值中出现次数最多的数值,是总体中最普遍的值,因此可以用来代表一般水平。如果数据可以分为多组,则为每组找出一个众数。注意,众数只有在总体内单位足够多时才有意义。

中位数是将一系列值中的每一个值按照从小到大顺序排列,处于中间位置的数值就是中位数。因为处于中间位置,有一半变量值大于该值,一半小于该值,所以可以用这样的中等水平来表示整体的一般水平。

1.3.4 离散程度指标

离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,则说明数据波动比较大,反之则说明数据相对比较稳定。

全距(又称极差)、方差、标准差等几个指标用于衡量数值的离散情况。

全距:由于平均数让我们确定一批数据的中心,但是无法知道数据的变动情况,因此引入全距。全距的计算方法是用数据集中最大数(上界)减去数据集中最小数(下界)。

全距存在的问题主要有两方面。

● 问题1,容易受异常值影响。

● 问题2,全距只表示了数据的宽度,没有描述清楚数据上下界之间的分布形态。

对于问题1我们引入四分位数的概念。四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间的四分位数为中位数。

对于问题2我们引入了方差和标准差两个概念来衡量数据的分散性。

方差是每个数值与均值距离的平方的平均值,方差越小说明各数值与均值之间的差距越小,数值越稳定。

标准差是方差的开方,表示数值与均值距离的平均值。

1.3.5 相关性指标

上面提到的几个维度是对数据整体的情况进行描述,但是我们有的时候想看一下数据整体内的变量之间存在什么关系,一个变化时会引起另一个怎么变化,我们把用

来反映这种关系的指标叫做相关系数,相关系数常用r来表示。

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。

关于相关系数需要注意以下几点。

● 相关系数r的范围为[-1,1]。

● r的绝对值越大,表示相关性越强。

● r的正负代表相关性的方向,正代表正相关,负代表负相关。

1.3.6 相关关系与因果关系

相关关系不等于因果关系,相关关系只能说明两件事情有关联,而因果关系是说明一件事情导致了另一件事情的发生,不要把这两种关系混淆使用。

例如,啤酒和尿布是具有相关关系的,但是不具有因果关系;而流感疾病和关键词检索量上涨是具有因果关系的。

在实际业务中会遇到很多相关关系,但是具有相关关系的两者不一定有因果关系,一定要注意区分。