大数据分析师面试笔试宝典
上QQ阅读APP看书,第一时间看更新

1.2.2 分析流程

数据分析的工作方法和销售、运营等工作不同,必须遵守一套流程,否则就会事倍功半甚至南辕北辙。

从大的流程来说,分为明确需求、获取数据、整理数据、分析数据、得出结论,如图1-8所示。

●图1-8 数据分析工作流程图

需求是数据分析的开始,也是分析的目标方向。如果你不知道要分析什么,还怎么谈如何分析?

数据分析需求的来源往往有3种场景:1)监控现有的指标出现了异常情况,需要通过数据分析去找原因;2)公司要对现有的运营模式或者某个产品进行评估确定是否需要进行调整、优化;3)公司下达了战略目标或短期目标需要通过分析看如何达成。

要确定需求就必须与需求方进行沟通,清楚确认需求的内容或者自己要分析前必须要清楚想要的结果是什么方向。

业务部门提的需求往往都是表面化的,甚至词不达意,作为数据分析师要从专业的角度去分析这个需求是否合理,是否能解决问题。比如业务方想看看前几天的订单总量,作为分析师应该就有这种敏感性,即为什么要连续看几天的订单总量?是否业务出了什么问题?而不是把一连串的数字扔给需求方了事,否则不能体现数据分析的专业性。可能业务方感觉昨天做了个调整不是很理想,是想看看差距有多大,然而他更深层次的需求可能是要找出原因,是否有这个必要进行调整,需要多大的代价来找出这个原因。这是数据分析师和需求方进行沟通的问题。

要想清晰地了解需求,需要做足功课:1)深入了解业务机制、产品的逻辑、需求的背景;2)初步判断自身的知识、技能储备和需求如何进行结合;3)和需求方沟通需求,并主要就自己无法理解的、双方理解不一致的需求进行深入讨论,直至问题解决。

明确需求后,下一步就要分析这个需求,具体需要哪些数据去满足这个需求,哪些数据是现成的,哪些数据还需要临时去采集。

如果有需要临时去采集的数据,比如需要通过调研得到数据或者找开发工程师进行数据采集代码的开发部署才能获取到数据(这可能需要较长的周期),此时就要和需求方进一步沟通,双方是否可以就数据分析的期限达成一致。

采集的数据可能来源不一,格式、字段名等都不统一,数据和数据之间的逻辑关系也可能是混乱的,数据里还有缺失、错误等情况,那么就要在整理数据的阶段去解决这些问题,一般称这个过程叫数据清洗。小数据量的时候,可以通过手工来完成数据清洗,大数据量的时候,需要靠专业的数据处理工具或者编程来解决了,如果这种数据需求是持续性的,不是偶发性的,还有可能需要专门建立一个数据处理系统来做这个事情。

整理完数据后,就需要对数据进行透视分析,最终得出数据结论。大多数情况下,需求使用方都不会关心分析使用的工具是SPSS还是SAS,也不太关心你使用了什么分析方法,因此在分析时尽量采用自己熟悉的工具和分析方法,以需求为导向,能解决问题即可。

分析的思路都是“由浅入深”。数据分析一般的步骤为:描述分析——锁定方向——建模分析——模型测试——迭代优化——模型加载——洞察结论。

描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计。

1)数据描述:用来对数据进行基本情况的刻画,包括数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,还要看数据的极值、分布、离散度等内容。

2)指标统计:分析实际情况的数据指标,可粗略分为变化、分布、对比、预测四大类。以下分别解析这四类指标的含义。

变化:指标随时间的变动,表现为增幅(同比、环比等)。

分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等。

对比:包括内部对比和外部对比,内部对比分为团队对比(团队A与B的单产对比、销量对比等)和产品线对比(ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比。这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因。

预测:根据现有情况,估计下个分析时段的指标值。

描述分析之后,就是进行深入的数据挖掘分析了,有较多的分析模型和方法,比如漏斗分析、聚类分析、行为路径分析、表单分析等,这里就不一一列举了。

分析过程中如果用到了数学模型,就必须要对模型进行测试验证。把从模型分析出的结果带到实际中,看是否有用,再去检查我们整个数据分析流程是否准确,检查是否在某个环节出现了错误,是否陷入了某种统计陷阱,比如幸存者偏差、确认性偏差、缺失值处理是否正确,从而不断地迭代优化。

分析后一定会得到一个结论,洞察结论这一步是数据报告的核心,也是最能看出数据分析师水平的部分。初级分析师和高级分析师拿到同样的图表,完全有可能解读出不同的内容。

举个如下的例子。

初级分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。

高级分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。

这两者的区别在于:2013年春节在2月,2012年则在1月,因此需要各去除一周的销售额,再进行比较。如果不考虑这一因素,那么后续得出的所有结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。

最后一步是输出分析结论,在非正式的情况下,可以直接向需求方报告数据结论,在正式的情况下,需要出具一份分析报告,以严格的形式证明自己的数据结论。

如果是要做正式的报告,就需要保证数据报告内容的完整性。一个完整的数据报告,应至少包含以下几块内容:报告背景、报告目的、数据来源、数量等基本情况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测。其中,背景和目的决定了报告逻辑(解决什么问题);数据基本情况告诉对方用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为报告加分。

如果可能,在输出结论的同时,数据分析师还可以给出解决方案。有一种观点认为数据分析师所从事的工作是给出业务方相应的数据结果,而不是解决方案。虽然也有分析两个字,但是如何设计解决方案是业务部门的事。但是当下专业的数据分析师需要比业务方更了解业务,不了解业务下的结论,领导或者需求方是不敢信任的。所以,一个业务技术双精通的数据分析师可以替业务方解决大部分问题,不依赖业务方的判断,因为他自己就是个业务高手,有丰富的实战经验与业务能力。