2.5 质疑一切
不同的用户可能会使用不同的术语来表达相似的问题,甚至同一用户在不同的查询的表达中可能也会有细微差别和各种不同特性。用户并不总是清楚自己的目标或信息需求,用户不一定知道自己的需求是什么。
因此,在业务中,有必要对一切提出质疑,以获取理解。尽管“质疑一切”似乎阻碍了无休止的循环进程(图2-5),但具有讽刺意味的是,“质疑一切”为探索提供了所有可能性,而这就是前面提到的信任矩阵可以帮助指导一系列研究发展的地方。这也是为什么销售人员,作为一种技巧,经常与潜在客户就他们的总体需求进行对话,而不是直接询问他们在寻求什么。
在Douglas Adams的《银河系漫游指南》(The Hitchhiker's Guide to the Galaxy,纽约:Harmony Books,1980年)一书中,当最终问题的答案遭到一点点鄙视时,计算机说:“老实说,我认为问题在于,你从未真正知道问题是什么。”然后计算机推测出,除非你完全掌握你要询问的内容,否则你永远无法理解答案。能够恰当地表达问题或查询,是一个不能掉以轻心的话题。
图2-5 认识到熟练提问的能力是洞见的根源
当用户知道他们想要什么,并且可以清晰地阐明需求的时候,将人工智能嵌入到进程中会更加有效。由于人工智能系统的类型和构成人工智能系统的许多算法类型存在差异,因此回答问题质量变化的基础,是首先寻求数据质量和数据组织。
然而,如果人工智能系统构建于来自非结构化数据的许多结论,那么数据质量和数据组织就会显得不合时宜。相对图像、视频或音频等非文本而言,文本中的非结构化数据,通常来自页面、文档、评论、调研、社交媒体等文本形式。但是,即使是非文本数据,也可以通过转录(在音频的情况下)或注释、标记图像中发现的单词或对象,以及其他派生信息,例如位置、对象大小、时间等,产生元数据、注释或标记的形式生成文本。所有类型的非结构化数据仍然可以从与源和数据的固有上下文关联的参数产生结构化数据。
例如,社交媒体数据需要各种附加数据点来描述用户、其帖子、关系、发帖时间、发帖位置、链接、主题标签等。这些附加数据是元数据的一种形式,并不是典型的元三合一特征,即业务元数据、技术元数据和运营元数据。尽管与社交媒体相关的数据被视为非结构化数据,但仍然需要一个信息架构来管理核心内容之间的关联性,即非结构化数据以及其支持内容(结构化元数据)之间的关联。如果两者一起使用,整个数据包可以用于塑造感兴趣的模式。
即使在无监督机器学习的情况下,即从没有由人预定义的数据中获取信号的一类应用程序中,程序员也必须使用属性、特征和值来描述数据。
提问
在提问时,可以考虑使用以下疑问词作为指导:何事、如何、何地、何人、何时以及为何。这种方法可以迭代使用。你可以根据疑问词来构建一系列问题,以获得完整的理解,并且在获得答案时,重新应用疑问词以进一步细化原有答案。你可以反复重复此过程,直到获得足够细节为止。