3.2.3 用户画像知识体系建设的方法
从数据架构的角度,用户画像标签体系是单向、分层的树状图。在引入知识图谱的知识体系后,用户画像标签体系中的各个节点会相互连接,扩展形成由实体状态域、事理知识域和需求概念域组成的知识图谱。
(1)在实体状态域,用户在不同时间的属性可以通过知识图谱关联,用户之间的社交关系、互动关系也可被关联。
(2)在事理知识域,汽车、游戏等兴趣标签可以与场景的专业知识关联,比如用户喜欢玩“射手鲁班”,那么他会害怕“刺客李白”。
(3)在需求概念域,不同业务的需求概念可以相互关联,比如氪金用户、二次元用户、白富美等业务的需求概念可以与年龄、性别、兴趣等标签关联。由此可见,用户画像标签体系是用户画像知识体系面向业务需求的子图。
因此,如果按照知识图谱三元组的结构,那么用户画像知识体系可以被定义为(人,属性,属性值)、(用户,互动方式,商品)、(人,关系模式,人)、(人,关系类型,企业)、(人,策略类型,人)等知识体系形态。
用户画像标签体系是用户画像知识体系的子图,因此用户画像知识体系可以在用户画像标签体系设计的基础上通过概念抽象、关联连接、属性扩充等方式进行扩展,比如,用户的年龄、性别、学历等人口学标签体系是用户画像的基础标签体系,而业务定义的抽象概念标签,例如白富美、学霸等,可以与用户画像的基础标签体系进行关联。因此,业务需求通过需求概念域的知识体系进行承接,并和用户状态域的基础标签体系进行关联、聚合,就可以获得融合业务需求和用户状态的知识体系。在关联方面,可以将用户画像的知识图谱与用户交互相关的内容知识图谱、商品知识图谱通过商品ID、内容ID进行关联。由此,用户画像知识体系可以融合内容与商品知识体系,当通过用户兴趣属性链接时,又可以进一步拓宽用户知识体系的范围。属性扩充,与关联链接相似,可以将用户的相关标签转化为属性,并附加在用户标签体系树上。
上述方法通常需要业务专家、知识图谱开发人员和用户画像开发人员,通过人工的方式对用户标签体系树进行梳理与关联。然而,在不少业务实践中,业务专家通常难以将抽象的业务描述与用户的行为特征进行关联。因此,是否有自动或者半自动的用户标签体系及知识体系建设方法呢?
回顾知识体系的建设方法,在垂直业务场景中,可以采取自底向上的方法,通过知识抽取、聚类等方式提取业务数据之间的关联结构,以此辅助专家进行知识体系建设。因此,在用户画像场景中,用户画像开发人员也可以从用户数据、海量知识中通过模型半自动或自动地挖掘用户画像知识体系。同时,通过数据启发式的标签体系构建方式,专家还可以挖掘出深层次、超出业务主观认知的知识。
那么具体如何落地呢?
知识图谱的业务目标,是作为数据知识来源帮助用户画像等认知智能应用实现对业务目标状态的全面认知的,以便构建最优策略,实现对目标的引导。回顾知识体系的建设原则,对业务目标有价值的知识才是有用的知识。因此,知识体系的建设应围绕业务状态的变化进行监督、半监督、无监督的知识体系建设。
企业在用户认知智能场景中的目标是通过认知用户状态,通过认知智能应用引导用户认知与决策,引导用户状态改变来获益。因此,知识图谱需要帮助认知智能应用找到能够理解并改变业务目标状态的信息,并以知识图谱的形式表达出来。搜索、推荐、知识问答、风险控制等认知智能应用会基于知识图谱数据,通过规则、统计、图深度学习方式构建知识增强的召回、精排、重排模型,这些模型既可以直接使用知识图谱的概念、实体名、关系、属性和属性值的语义抽象符号,又可以使用数值化的知识表示向量。
假如将业务状态定义为Y,那么业务实体状态的变化可以将∆Y作为目标。Y可以是用户点击广告次数、用户浏览时长、用户活跃度、用户付费率等业务指标。在用户画像知识体系下,这个业务目标就是用户,因此用户画像知识体系需要围绕业务目标变化∆Y来构建。从机器学习的视角,就是围绕目标∆Y搜索最相关数据、知识,再通过抽象、聚类、推理等方式构建特征体系,特征之间的复杂逻辑、拓扑关联的信息通过知识图谱的形态进行表达,再给到上层的搜索推荐业务应用使用。
• 在营销领域,∆Y可能是用户点击广告、用户购买商品的状态变化。
• 在风险管理领域,∆Y可能是用户还款、违约的状态变化。
• 在产品增长分析领域,∆Y是可能业务增长相关的活跃度、价值度、流失率的状态变化。
图3-7展示了面向实体的认知引导过程。
图3-7
在用户画像中,企业希望认知用户过去的状态S1、当前的状态S2,以及未来的状态S3、S4、S5的关键状态特征,以及受到不同策略行动影响后状态之间的演变模式。比如在推荐场景中,可以采用DIN(Deep Interest Network)算法捕捉用户状态的演变,以及与之关联的特征,关联的特征是通过深度神经网络表示的。
以内容推荐场景为例,业务需要了解用户当前的状态S2与过去的状态S1关联的数据与知识有哪些,是用户的年龄、性别,还是兴趣、业务知识、业务数据?同时需要了解用户的状态SN与策略AN行动之间的关联。∆Y来自状态SN之间的收益变化,在不同场景中会有所差别。在内容推荐场景中,可能是用户浏览市场最大化、内容关联广告点击率最大化或广告商品转化收益最大化等。
通常,∆Y需要运用多任务模型,对多个模型的任务目标进行合并,并给予神经网络反馈。比如用户过去的状态S1,因为运营、广告、内容的策略行动A1,进入当前的状态S2。而推荐算法需要找到最优的策略行动AN,来推动用户进入业务目标状态ST。基于状态策略构建搜索是典型的强化学习问题,通常可以用深度图神经网络来构建数据之间的多层抽象表示。
得益于知识图谱强大的数据、知识表示与存储能力,上述实体状态数据、状态关联、策略关联、策略状态关联、领域过程性的专业知识、经验数据和任务目标数据等都可以通过知识图谱存储起来。由此可见,用户画像的整体知识体系,就是对上述领域的知识体系进行拼接,用户画像场景中的知识图谱可以为专家经验与规则和数据启发式模型的深度融合提供基础。第9章会详细介绍营销用户画像场景中知识图谱的应用方式。
那么在用户画像的不同领域,如何自动或者半自动地构建知识体系呢?
• 在用户画像的实体状态域,用户的实体状态是一个高维度的张量(Tensor),当以知识图谱的形式表示时,是以用户实体为中心的图拓扑网络,其中,用户实体之间的关联包括时序关联、人与人的社交关联、用户与商品的交互关联、用户与物的交互关联。在企业实践中,实体状态域的知识体系可以由存储用户数据的数据库的数据字典、逻辑模型,通过关联、映射、聚合而成。比如,用户的时序数据、社交数据、商品交互数据可以将用户ID作为主键,打通多张数据库表的数据字典,关联并聚合成融合商品、社交关联、时空序列的知识体系。在聚合过程中,通常需要进行实体链接和知识融合。值得关注的是,用户的个体标签是一个关联网络,而用户社群结构与标签也是一个关联网络,知识体系的开发人员合理运用前者,就可以构建标签概率网络,通过概率推理生成标签体系;合理运用后者,就可以通过对社群结构的分析,将社群的标签体系赋予个体用户。
• 在用户画像的事理知识域,主要包含企业业务事理逻辑知识、专业域知识和开放域知识等,因此该领域中的知识体系建设方法可以参考开放域的监督、非监督、半监督的知识体系建设方法。而用户的运营策略体系、广告的素材策略体系、推荐的召回策略体系等,可以通过体系映射的方式转化为事理知识域的知识体系。
• 在用户画像的需求概念域,主要包含业务的目标Y、业务的收益逻辑和业务抽象的需求概念知识。业务目标可以从企业的KPI、OKR等指标体系通过映射进行转化,而收益逻辑需要从业务专业模型转化而来。业务抽象的需求概念可以从用户画像的落地场景数据中生成。当用户画像服务于营销导购场景时,在导购员与用户的沟通对话中会产生大量的需求描述问句。开发人员可以根据这些问句,通过分类、序列标注等方法获得业务需求的属性和关系。在抽取的关系、属性和属性值的基础上,通过数据整理、关联预测、体系拼接等方式,协助业务专家梳理需求概念域的知识体系,通过对需求数据自底向上进行抽象、聚类、分类,可以大幅提升需求概念域的效率。
用户画像知识体系建设是企业级知识图谱与认知智能落地的典型场景。如本节所述,开发人员需要围绕业务目标的状态变化,通过自顶向下或自底向上的数据特征搜索、概念搜索、体系映射、人工整理等方法,进行手动、半自动或自动的知识体系建设。商品、设备、企业等知识图谱的建设也可以参考上述方法。
本节详细分享了如何从认知引导这一目标建设用户画像知识体系的相关解决方案。然而在企业级应用实践中,从0到1设计业务用户画像知识体系是极具挑战性的。因此在后续的章节中,将分享业内公开的用户、设备、电商、企业等标签体系与知识体系案例,读者可以以此作为业务场景中知识体系的设计参考,提高知识体系的设计效率。知识体系是与业务场景、业务需求、业务解决方案强相关的。因此,读者在阅读本节后续小节时,可以与第9~11章的垂直解决方案结合阅读,提高对场景知识体系的理解效率。