数据迷雾:洞察数据的价值与内涵
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

02
数据通用的最优策略

第4章
数据处理的最优策略

当分析数据时,我们最应牢记的便是必要、需求和有效。这也是我与客户分析股票市场以及在特殊项目中分享建模和预测结果时的经验。

而这所有一切,都始于有效的提问。

正确定义问题

在电影《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)中,主角们向无所不知的名为“深思”(Deep Thought)的超级计算机寻求“生命、宇宙和万物的答案”,这是个宽泛且深奥的问题。

不久,他们再次见到“深思”时,它却只给出了“42”这一答案。

很显然,主角们问的不算是个“好问题”。如果没有找准问题,您自然也不会得到想要的答案。

没有优秀的命题,世界上所有的数据和计算能力都将一文不值。问题的有效性固然重要,与此同时,确保数据的有效性以及遵循正确的数据处理流程同样必不可少。

遵循数据处理流程

遵循适当的数据处理流程比以往任何时候都更加关键,原因有二:

首先,要记住所有项目都有两面:人的一面和技术的一面——从技术和流程的角度正确进行分析非常重要。

其次,产生和收集数据的速度正在加快。之前提到,过去两年中创建的数据占到了人类历史上所有数据的90%。也就是说,现在是科学家、工程师和企业利用这些数据来发挥自己优势的绝佳机会。但是,只有遵循流程,才能真正体现数据的力量,产生真实、有价值、可实践的结论。

无效的数据和混乱的流程管理带来的无数次失败,印证了为什么正确地管理数据收集和分析过程越来越重要:只有这样所有工作才能顺利地进行下去。只有这样您才能获得有效的结果,用以支持——当然也可能会证伪——您的假设。

确保自己一以贯之地遵循一套可靠的数据处理流程是获得最佳分析结果的关键。做好充分的准备,再付诸行动,您将节省宝贵的时间和精力。

数据处理的最优策略

遵循正确的数据流程意味着您需要按照一系列步骤来获取所需的结果。不只是正确地提问,您还需要正确地收集数据并进行数据清洗。做到这些,才能真正开始对数据进行分析。在提出准确命题、收集合适数据、完整分析过后,还需要对结果进行检验和复测。

根据我过去十五年来一直分析不同的经济、金融、统计学数据的经验,我建议您使用包含以下流程的“七步数据分析法”,注意这里不包含展示和结果应用部分:

1.构想出正确的提问。

2.划定项目范围。

3.收集数据。

4.数据清洗。

5.分析数据。

6.检验结果。

7.用新的数据或未来的数据进行复测。

接下来我们会按照这套框架进行梳理——一旦未来量子计算机普及,这套框架将如虎添翼。请注意,执行顺序与正确执行同样重要。如不按顺序执行,该流程将失去其原有价值。

构想出正确的问题

爱因斯坦曾经说过:“如果我有1小时来解决问题,我会花55分钟思考问题,再用5分钟思考解决方案”。若能使用量子计算机,两者比例将更加悬殊:您可能愿意花费其中的59分钟来提出问题,而只花1分钟得到答案。但是无论时间比例如何分配,这句话的寓意显而易见:明确目标是解决问题的第一步。一切从优秀的命题开始。

无论您需要多长时间来设计一个命题,可以肯定的是:在问题设置上花多少时间,就能从数据中挖掘出多少价值。在量子计算机时代更如此。

当然,有时提出问题其实是整个数据分析项目中最困难的部分!

无论是普通计算机还是量子计算机,无论是真正的量子计算机还是仿真计算机或光子计算机,在可见的未来可能都无法做到的,就是帮您找到有价值的研究命题。

所以,您需要自行准确设计问题。

显然,首先要确保问题足够具体,可以被回答。其次,要考虑到您所拥有或将要收集的数据能否用于解决该问题。

以我的经验,在寻找灵感的阶段,从多个角度考虑潜在的问题是有所帮助的。这也将帮助您对需要哪些数据来解决问题提出初步的构想。

例如,在制定长期油价预测策略时,您需要考虑的内容包括常规油和页岩油的未来供应,新兴市场财富增长带来的需求增长,电动汽车的使用带来潜在的原油需求减少,以及在金融市场未来石油产品金融化的影响,并预判这些对石油价格的影响。

划定项目范围

在敲定需要收集哪些数据之前,必须先划定项目的范围。

比如,如果您的项目或客户主要与美国或美国某些州有关,那您可能不需要深入研究国际数据。正如我在本章前文提到的做好充分的准备,就能事半功倍。

又如,尽管您在关注油价,但您不会想尝试一次性为每种原油、每种石油产品建立预测模型。也许未来量子计算机能做到这一点,但是目前,如果您想使用普通计算机在合理的时间内完成计算,就需要围绕您分析的内容对数据范围进行一些限制。

您要知道,尽管划定项目范围听上去很简单,但涉及与利益相关者(stakeholder)的合作时,又可能存在极大的挑战。

最大的挑战之一就是缺乏“明确性”。与利益相关者存在合作的情况并不罕见,有时他们会提一些不现实的要求,或者说他们其实并不理解自己想要什么。如果与您共事的是“结果导向型”的管理层,这种情况会更加常见。

遇到这类问题,谨慎处理这种由专业差异带来的风险就是您的责任了。关键是要时刻提醒自己:并非所有人都拥有数据处理、统计学或数据分析工具相关的专业知识;但是与此同时,他们是您的利益相关者,而且在其他领域他们的知识和经验同样可能令您相形见绌。

遇到这种情况,我的建议是保持细心和耐心,做个和气的人。我明白,我们明明是在讨论数据分析这一专业问题,却要提到性格和为人是有些奇怪。但是您一定要对您的利益相关者和蔼一点——尤其是那些对项目细节不太了解的人。

利益相关者之间的互动也会带来其他风险,比如证实偏差(confirmation bias)、锚定偏见(anchoring bias)以及在后续的项目过程中会成为隐患的其他偏见。

证实偏差,是指人们可能只寻求和相信那些与他们在项目之初,甚至项目开始之前就产生的看法相符的分析和结果。

而锚定偏见,是指您会发现您的利益相关者盯住某个特定的预期不肯放手,甚至执着于某项特定的增长率,如联邦基金利率或下次经济衰退的时间。您可能曾经向他们提过这些数字,或者您可能都不知道他们是从哪里了解到的这些数字。

还有些偏见是在合作过程中逐渐显现的,而我们的上策就是逐一解决这些问题。您会觉得自己在敲打一个没人听得见的鼓,但克服偏见的最好办法就是保证消息交流的一致性和可靠性。

收集数据

在确定了研究的问题并划定了需要分析的范围后,下一步便是实际收集数据。

您需要考虑数据的来源。如果您正在使用的数据是专门为回答该项目问题而收集的,且落在划定的范围内,那么相较于为其他目的收集的数据,您已经拥有巨大的优势了,因为那些数据需要通过调整来适配项目需求。

如果使用内部数据,要确认该数据是否可用。如果您用的是外部来源数据,就要考察数据的准确性以及该数据是否开放使用权。外部来源可能包括政府数据或金融市场数据等。

这时您可能觉得自己面对着名副其实的数据宝库,但您应当回头考虑一下收集这些数据是为了回答什么问题。如果现有数据其实并不能帮助解答您最初设定的问题,那么您就需要创造一些有利于解决您问题的数据。

应该意识到,在数据收集过程中可能会闪现出许多意想不到的问题。

比如政府数据往往收集和报告的过程相对缓慢,或者正如我最近遇到的那样,您可能遭遇政府停摆导致关键数据的延期发布。

不过,比起这些偶尔不靠谱的政府数据,更糟糕的是,可能根本没有任何与您要分析的内容相关的官方数据。在这种情况下,您可能需要自己创造数据。这个主题将在第8章和第9章进行更详细的讨论。

您还可能发现存在可疑的数据源,其中的数据内容、分组、标签前后矛盾。这是个大问题,这也提醒您应在合理程度上保持质疑态度,不可盲目信任某些数据。

同样,您可能会发现正在使用的数据集由无法进行比较的数据组成,这可能导致对比结果驴唇不对马嘴。您要非常注意这类数据问题。

毕竟,如果在数据集不匹配的情况下进行分析,产生的结果将可能是误导性的、严重错误的甚至完全没有价值的。

检查正在使用的数据是否适合用于此研究、是否可靠可信,是进行下一步——数据清洗的必要前提。

数据清洗

前文已经提到过,要确保使用准确且适合的数据来解决您的问题。但同时要注意确保计划使用的数据是“干净的”,或者说是具有一致性和准确性的内容。

未经处理的数据可能会影响您想进行的分析。这就是为什么数据清洗会是您在任何数据分析过程中都不可或缺的步骤。

干净的数据意味着数据需要保持一致性,使用相同的度量单位,处于相同的时间段并且格式正确。

对输入数据执行尽职调查时,您需要考虑的内容包括:

1.货币单位是否正确。

2.度量单位是否正确。

3.行和列是否全部对齐。

4.面板数据中样本个体的属性标签是否统一。

如果存在不一致,则需要对数据进行调整,可以选择删除一些现有数据,或者筛选、创造一些新数据来满足分析所需的数据量。

数据清洗非常重要,只有这样,接下来执行分析步骤时才不会出现问题。同时,经过清洗的数据才能保证您得出更加有用的结论,而且即便之后发现数据有问题也无须从头开始重做。

如果不清洗数据——使其与所使用的技术工具兼容——就开始分析步骤,问题就严重了。

比如,数据列未对齐可能会导致统计软件包运行时出错,而这就将进一步导致公司决策、投资或策略失误。

尤其是在云计算盛行的当下,分析数据用的计算机有时价格高昂,其背后的代价也不止于此。您绝不希望因为输入没有清洗好的数据而浪费时间,浪费无论是实体的还是远程的计算机的处理能力。

那真浪费!

不知道您是否听说过“垃圾进,垃圾出”(garbage in, garbage out)这句话?如果输入的数据没有清理好,就会发生这类事故,得到的结果也是垃圾。

只有清洗干净数据,您才能进行下一步——实际分析数据。如果发现数据清洗出了问题,可能就需要从收集数据重新开始。毕竟,使用一团乱麻的数据是无法保障分析结果有意义的。这里提到的“不干净”也可写作“脏”数据。

分析数据

到了这一阶段,就是普通计算机或者量子计算机大显身手发挥作用的时候了。计算能力的提高和存储容量的提升促进了数据科学和数据分析领域的发展,而对该领域持续的投资正在进一步突破其瓶颈。尽管分析本身似乎变得越来越容易,但对于想成为行业顶尖精英的人来说,想跟上技术发展的步调反而变得更难了。

这也不奇怪,实际分析在整个数据分析领域都相对热门,是众人竞相研究的重点,同时这也是最有可能因量子计算机技术发展而取得突破性进展的领域。

然而,计算机(包括未来的量子计算)带来有价值的数据分析的潜力,在根本上仍然取决于所使用数据的适当性、精确性和“干净”程度,以及高度依赖可靠的数据流程管理。

坦率地说,分析数据目前是整个项目中最简单的部分之一。

不要以为数据清洗很容易!

而且,收集新的数据可能会很花时间,尤其是当您需要多个时间段的时间序列数据时,历史数据可能难以事后被收集或重建。

关于这点我的建议是,无论您要进行的是哪种分析,最好多回顾自己一开始设计的命题。有时数据会使您偏离轨道,因此应将注意力集中在既定的任务上。

同样,在项目的分析部分,与统计无关的问题也会带来不小的麻烦。有时,分析师会有其他需要优先考虑的事项,比如存在管理压力,要求在已知存在偏差的情况下进行分析。

或者诸如,因时间有限而导致分析有效性降低;因分析师角色变化而导致模型效力降低等。更令人不安的还有利益冲突会带来道德风险,而且分析师也不见得都诚实可靠。

况且,即使清除了这些人为原因的数据分析风险,得到了结果,分析流程仍未完全结束。

您还需要检验结果——而且是反复检验。

检验结果

完成分析后,必须对结果进行检验。这也是七步分析法的重要组成部分,用以确定分析结果是否准确。做到这一步,首先要回顾并再次确认之前执行的其他步骤完成无误。

无论数据总量如何,分析流程都可以保持不变。但是检验的类型、频率以及复杂性会随着量子计算等技术的发展而变化。

但是步骤是一样的。

用新的或未来的数据进行复测

如果您认为经过了之前那么多工作,分析已经完成,模型可以像琥珀里的虫子那样封装并维持原状存放数百年甚至更久,那我确实还要告诉您一个坏消息。

您需要重新检验模型,以查看它是否适用于其他数据和未来数据。数据关系会随着时间而变化,当您获得新的数据时——或将来数据更新时——任何模型或分析都需要经过复测。尤其是动态数据,因为动态数据集会受到多方面因素复合影响而不断更新。

例如大规模电子商务供应链的实时优化或从自动驾驶汽车接收的信息。

复测和重塑分析内容、方法及其结果,这一过程也有望因量子计算技术发展而变得更高效。这是因为以现在的技术水平,含有更多有效信息的数据集可能无法被实时处理,甚至难以在有效期限内完成分析。

这又是量子计算机的一项潜在优势。

为保障结果的普遍性,复测必须频繁地进行。这也意味着最开始选择合适的数据来源以及数据的清洗环节尤为关键,尤其是像供应链、交通网、医疗服务这类庞大系统中需要瞬时迭代并会对真实世界产生实时影响的数据。

所以任何数据都需要严格按照七步分析法来执行。

其他事宜

综上所述,遵从适当的分析步骤是成功分析项目的关键。但这也不是唯一的影响因素,毕竟,您还需要分享和交流项目的成果。如若沟通不利,可靠的分析结果也变得毫无价值。我们将在第14章中详细讨论如何有效地分享并帮助利益相关者充分利用您的成果。

总结

在本章中,我们讨论了关于数据处理的惯例做法。要点如下:

·有效的提问是发挥数据价值的前提。

·合适的数据是得到解答的前提。

·错误的数据会误导结果。

·再优秀的命题和数据,在不完善的分析框架下也没有价值。

·保持数据分析的有效性必须不断进行检验和复测。

还要强调一点,数据分析步骤必须按顺序进行。使用未清洗的数据没有意义。另外,被划定在分析范围外且优先级较低的数据无须清洗。

如您所见,普通计算机和量子计算机的效能受到技术、物理以及人为因素多方面的限制。

尽管数据领域的许多人专注试图突破计算机处理能力的极限,但在很长的一段时间内,项目人员能否以有效的框架进行正确的分析将是限制计算速度的最关键因素。