数据分析师养成宝典
上QQ阅读APP看书,第一时间看更新

0.2 数据分析

数据分析指的是将数据转化为价值的一个完整过程。作为一个完整过程,数据分析应该有很多环节。用看病来类比数据分析,是一个不错的例子,如图0.1所示。

图0.1 数据分析过程与看病过程类比

为了理解数据分析,首先要弄清楚数据分析与其他相关概念的区别。数据分析还没有公认的定义,百度的解释是:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

在使用中,数据分析可帮助人们做出判断,以便采取适当行动。

下面用宾州大学知名的Dennis Lin教授提到过的一个例子,显示数据分析与我们到底有多么紧密相关。这是一封大数据情书,信中写道:

亲爱的齐:

我们的感情,一年来正沿着健康的道路蓬勃发展。这主要表现在:

1)我们共通信121封,平均3.01天一封。其中你给我的信51封,占42.1%;我给你的信70封,占57.9%。每封信平均1502字,最长的达5215字,最短的也有624字。

2)约会共98次,平均3.7天一次。其中你主动约我38次,占38.7%;我主动约你60次,占61.3%。每次约会平均3.8小时,最长达6.4小时,最短的也有1.6小时。

3)我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。

以上充分证明一年来的交往我们形成了恋爱的共识,我们爱情的主流是互相了解、互相关心、互相帮助的,是平等的、互利的。

这封情书就是一个现实生活中利用数据进行分析的范例,如果情书通篇只谈我有多么爱你,往往是一封空洞的书信。但是如果在情书中加入量化的数据,能够大大增加情书的说服力。

为了理解数据分析,接下来比较一下与数据分析相关的概念。

0.2.1 数据分析不同于信息化系统

信息化是以现代通信、网络、数据库技术为基础,将所研究对象的各要素汇总至数据库,供特定人群生活、工作、学习、辅助决策等和人类息息相关的各种行为相结合的一种技术,使用该技术后,可以极大地提高各种行为的效率,为推动人类社会进步提供极大的技术支持。

数据分析与信息化系统对比见表0.1。

表0.1 数据分析与信息化系统对比

0.2.2 数据分析不同于统计分析

统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是继统计设计、统计调查、统计整理之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析达到对研究对象更深刻的认识。它又是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。

运用统计方法、定量与定性的结合是统计分析的重要特征。随着统计方法的普及,不仅统计工作者可以搞统计分析,各行各业的工作者都可以运用统计方法进行统计分析。只将统计工作者参与的分析活动称为统计分析的说法严格说来是不正确的。提供高质量、准确而又及时的统计数据和高层次、有一定深度、广度的统计分析报告是统计分析的产品。从一定意义上讲,提供高水平的统计分析报告是统计数据经过深加工的最终产品,这里的深加工指数据挖掘方法。

统计分析还是就数据分析数据,还不能讲数据的故事。数据分析与统计分析对比见表0.2。

表0.2 数据分析与统计分析对比

0.2.3 数据分析不同于数据挖掘

在许多时候,数据分析和数据挖掘常常一起出现,许多人容易把这两个概念搞混淆。

所谓数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念、规则、模式等形式。挖掘的结果是数据分析报告的素材,挖掘得越深,数据故事讲得就越精彩。数据挖掘技术是做数据分析达人的基本功。

数据分析与数据挖掘对比见表0.3

表0.3 数据分析与数据挖掘对比

在企业运转过程中,数据分析和数据挖掘的需求持续不断,两者相辅相成,不可或缺,同等重要。

0.2.4 数据分析不同于数据管理

随着计算机技术的发展,数据管理经历了人工管理、文件系统和数据库系统三个发展阶段。在数据库系统中所建立的数据结构,更充分地描述了数据间的内在联系,便于数据修改、更新与扩充,同时保证了数据的独立性、可靠性、安全性与完整性,减少了数据冗余,故提高了数据共享程度及数据管理效率。

数据管理只依赖于数据本身,与业务场景、思维习惯无关。数据管理是一种技能,而数据分析是一种艺术。

数据管理数据源一般要求数据是结构化的,数据分析的数据源可以是结构化、半结构化和非结构化的。

数据分析不同于数据管理,数据分析输入的是数据,输出是用于决策的数据分析报表,而数据管理输入的是数据,输出的还是数据。

0.2.5 数据分析不同于商业智能

数据分析只是一种工具(一种系统化分析问题的方式),可以很简单,也可以很复杂。

商业智能则是一种产品/服务,这个产品/服务可能包含报表、分析、管理等利用计算机和编程技术自动化一些商业过程的行为。

举例子:水果店老板利用商业智能做出来的报表或仪表盘观测自己商店的人流量、购买量、购买时间,及时调整自己的库存和销售节奏。

过去人们做生意,依靠的是直觉和经验。现在在计算机的帮助下,可以利用数据分析减少试错,减少错误决策带来的成本,明白生意好的因由。而商业智能将这一切尽可能地自动化和简化。

商业智能常常被理解为企业内部现有数据转化为指导商业决策的平台或系统。类似于ERP、CRM等系统一样的企业级信息化应用。常见的系统有Business Object、Cognos和Hyperon等。

从企业分工的角度来讲,通常商业智能部(BI)会涵盖大数据产品、数据分析和数据仓库3个部分。所以,数据分析仅仅是BI中的一个部分。

数据分析应用于各个部门,通常更多是零散的应用和局部的应用;BI通常是企业级的应用,更宏观。

数据分析通常针对某个问题,运用一定的方法进行分析、归纳、演绎并得出结论;商业智能更多侧重于流程化、规范化和智能化的应用。

数据分析的工具包括R、SAS等挖掘工具,也包括Webtrekk、GA等统计分析工具,更包含Excel等初级工具,只要能实现分析都可以使用;BI通常包括SAP、Oracle、甲骨文等大型公司提供的工具,一般小工具都不能应用。

0.2.6 数据分析的内容

数据分析的内容可根据业务需求有所侧重,图0.2给出了分析内容的9个方面。

图0.2 数据分析目标的深度示意图

(1)数据可视化

数据分析不使用图表是难以想象的,数据可视化的作用、技术、工具可参考第18章。

下面以客户咨询情况分析为例,说明可视化的必要性:

“在1205692件客户咨询中,咨询话音基本业务423058次,占咨询总量的35.09%;咨询新业务367978次,占咨询总量的30.52%;咨询终端2635次,占咨询总量的0.22%;咨询服务及营业网点99109次,占咨询总量的8.22%;咨询网络26896次,占咨询总量的2.23%;咨询卡类业务7792次,占咨询总量的0.65%;咨询计费原则4636次,占咨询总量的0.38%;咨询营销活动211312次,占咨询总量的17.53%;咨询其他业务62276次,占咨询总量的5.16%。”

上面的文字描述可以用图0.3表示。

图0.3 客户咨询情况分析可视化示例

(2)PPT式报告

在程序员的世界里,讲究“No more talk,Show me the code”,在数据分析师世界里,讲究“Show me the report”。PPT式报告是了解情况的最简形式,好的数据分析报告是企业决策的重要依据,专业的数据分析报告能体现分析师的职场价值。具体细节参见0.4.4节和第17章。

(3)数据认知

当拿到一个数据集时,你通常会怎么做?你脑子里好不容易蹦出的那个答案正确吗?这个问题或许能让不少人尴尬。分析与探索是对数据的认知,将遵循如下顺序:数据源质量→数据类型→数据集质量→平均水平→数据分布→量变关系→多维交叉。细节参考7.2节和7.3节。

(4)业务洞察

业务洞察可以为组织提供快速的评估和路线图,帮助组织识别机遇和规划转型路径以实现其分析举措和目标。业务分析可以通过分析,帮助组织开启实现价值和竞争优势的新途径。

(5)精准营销

精准营销大致意思就是充分利用各种新式媒体,将营销信息推送到比较准确的受众群体中,从而既节省营销成本,又能起到最大化的营销效果。这里的新式媒体,一般意义上指的是除报纸、杂志、广播、电视之外的媒体。

(6)用户画像

用户画像是对现实世界中“用户”的“数学建模”。

一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出来的,因此来源于现实,高于现实。

另一方面,用户画像是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的,它是从数据中来,但对数据做过了抽象,比数据要高,后面所有用户画像的内容都是基于这个展开的。比如月光族,这个是挖掘分析出来的,不是说原来的数据中包含月光族这个标签。

(7)行业分析

行业是由许多同类企业构成的群体。如果只进行企业分析,虽然可以知道某个企业的经营和财务状况,但不能知道其他同类企业的状况,无法通过比较知道企业在同行业中的位置。而这在充满着高度竞争的现代经济中是非常重要的。另外,行业所处生命周期的位置制约着或决定着企业的生存和发展。

(8)趋势预测

趋势是指市场运动的方向,有三个方向:上升方向、下降方向和水平方向。

趋势的类型(规模)分为:

主要趋势(一年以上);

次要趋势(三个星期到数月);

短暂趋势(两三个星期)。

(9)数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。细节可参考第8~16章。