2.1 用户认知模型_人工智能：智能人机交互-QQ阅读男生科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.1　用户认知模型

用户认知模型通常可以用来预测人类用户如何与系统进行交互，通过这种对人类感知和认知能力的预测，可设计出更高效、更友好的人机交互界面[1]。现有主流用户认知模型包括MHP、GOMS、SOAR、ACT-R、EPIC等，可以用来对人类的交互操作任务进行认知建模。其中，MHP的主要思想是将人比喻成计算机，把人脑处理信息的过程类比为与计算机处理外界信息一样的过程；GOMS模型是关于用户在与计算机系统交互过程中使用知识和认知过程的模型，可以用来预测用户会用什么方法和操作，并且可以计算熟练用户在给定的用户界面条件下所需要的任务执行时间；SOAR模型是一种围绕算子的选择和应用功能组织的通用认知模型，可为解决复杂环境下通过自动使用知识、持续学习来完成任务而提供灵活的计算框架；ACT-R模型试图将认知过程表达成一种模式，用不可分的认知操作元素和相应的构成框架，对用户的认知行为建模；EPIC模型进一步通过工作记忆将视听感知、运动行为和认知行为整合，为更为复杂的交互场景提供可计算、可描述的用户模型。通过人机交互的认知行为模型对人类行为模拟，不仅能够实现定量或定性地预测人类行为，而且也能够解释多重任务情境下的用户交互行为。

2.1.1　MHP模型

MHP(Model Human Processor)模型[2]主要用来计算用户完成特定任务时所需要的时间。它的主要思想是把人看成一个类似于计算机的信息处理系统，将计算机的处理、存储区域与用户的感知、动作、认知和记忆区域进行类比。

具体而言，MHP模型将人类的心理加工过程概括为感知、认知、动作三个处理器，用于工作记忆、长时记忆的若干存储单元，以及这些处理器与存储单元之间相互联结的通路(见图2.1)。除此之外，MHP模型建立了这些处理器和存储单元所遵循的一系列原则。这些原则最终被定义为一些确定的参数，用于分析信息加工系统的经济性。

图2.1　人类处理器模型

使用MHP模型预测用户完成任务的时间，大致可以分为以下几步：

● 根据工作原型的仿真模拟写出任务的主要步骤；

● 根据图2.1过程将任务分解(分解得越详细，预测就越准确)；

● 根据表2.1确定每个操作的时间；

● 确定每个操作的时间是否需要调整(对于老年人、残障人士等情况可能会更慢)；

● 累计整体时间；

● 根据需要迭代检查原型。

表2.1　MHP模型中的关键参数

例如，对于一项文本阅读的任务，首先写出该任务涉及的具体步骤，并将这些具体步骤分解为基本过程：看文字时需要用到感知处理器的视觉信息存储模块，理解文字内容时需要用到认知处理器的工作记忆模块(包括认知处理与长期记忆)，阅读完一段文字进入到下一段文字时，需要用到动作处理器的动作响应模块(包括眼睛的移动、手动翻页等)。将每一步需要的时间分别计算，并根据阅读用户的自身情况，对每一步的时间进行调整，最终累加这些时间，就能预测出用户完成文本阅读任务所需要的时间。

尽管MHP模型为模拟和预测人机交互的行为绩效提供了一个简单、有效，而且可操作的计算方法，但也存在明显的不足[3]。首先，MHP模型提出于20世纪80年代，当时心理学家对人类认知机理的认识还存在较大的局限性，比如对三个处理器的环路循环周期时间的设定是比较随意和主观的。其次，MHP模型将认知过程假设为一个序列加工的过程，虽然存在从动作到感知的反馈通路，但是与近年来大量认知心理学的研究发现不相符。最后，MHP模型将人机交互的心理过程划分为三个处理器执行的处理过程，虽然这个划分对后续工作具有较大的指导意义，但是对三个处理器内容的描述还比较笼统，很难满足当前对越来越复杂场景中的人机交互任务进行准确描述的需求。

2.1.2　GOMS模型

GMOS模型是一种用于定量分析交互行为复杂性的用户模型，在早期人机交互领域应用十分广泛。其核心思想在于将用户行为拆分成基本行为单元，通过建模，这些基本行为单元就能预测行为序列以及完成行为序列所需要的时间。

具体而言，GOMS模型包括一系列的描述模型，描述用户在实现计算机任务时需要具备的知识和四个认知组成部分，即目标(Goal)、操作(Operators)、实现目标的方法(Methods)以及用于选择实现目标方法的选择规则(Selection Rules)。这四种认知组成之间的关系如图2.2所示。目标是指用户试图完成的任务的最终状态。操作是指用户为实现目标所需执行的知觉、运动或者认知加工等基本行为。这些基本行为的执行对于改变用户的心理状态或者影响任务环境非常必要。实现目标的方法是指为了实现目标所需要执行的一系列步骤。由于实现目标的方法可能有很多种，因此需要通过选择规则这一控制结构，以便选择恰当的方法。GOMS模型是人机交互和界面设计领域中最常用的信息加工模型，尤其在可用性测试领域被广泛应用。

图2.2　GOMS模型的四种认知组成之间关系

GOMS模型基于两个假设：①用户对操作十分熟练，其行为目标由最终目标和一系列子目标组成，用户会根据不同目标选择恰当的操作方法；②用户操作时间由基础认知时间、感知时间以及执行动作时间组合而成。基于GOMS框架所构建的模型，可以用来预测用户会选择什么方法和操作，并且能够计算熟练用户在给定的界面设计条件下所消耗的时间。总体而言，GOMS 模型强调实现特定目标所选择的方法，由于目标具有层级性，因此实现目标的方法也是一个层级结构。当实现目标的方法有多种时，选择规则就会发挥作用。

在推出GOMS模型后，人们又推出了简化版的模型——KLM击键模型，用于预测文本输入以及鼠标执行的选择性操作耗时。它的预测方法相对简单，可操作性更强，设计人员可以在短时间内独立完成耗时度量。在KLM击键模型中，用户的交互行为被分解为几个元操作，每个元操作通过大量测试得出一个平均时长(见表2.2)，通过这些元操作的累加得出界面设计方案需要的操作时间，进而验证和对比各种方案的优劣。

表2.2　KLM击键模型元操作平均时长

GOMS模型的预测能力来自一系列关于人类操作和大脑处理能力的基础实验数据。研究者在做实验时，把任务中各分解步骤的数据都记录下来，而非粗粒度的整体数据。经过大量实验后，他们发现有些数据在很多任务之间具有一致性，如击键时间、选择时间等。这些相应的量化方法和经验数据成为GOMS框架的重要组成部分。在很长一段时期，GOMS模型体现出在人机交互中的重要价值。比如，基于台式电脑的键盘操作、鼠标操作或其他能够被良好分解的、序列化的人与机械界面的操作形式，都可以通过GOMS模型进行分析和预测。但是GOMS 模型假设用户对操作十分熟练，而且其目标由明确的最终目标和一系列子目标组成，用户会根据不同目标选择恰当的操作方法，导致COMS模型仅仅适用于熟练的使用者，而无法预测初学者的试错过程[4]。同时，GOMS 模型更适合用于模拟和预测任务目标简单明确、目标可以清晰分解的交互任务和场景，但是随着当前人机交互方式和任务复杂度的大幅增加，会面临无法适应新需求的困境。

2.1.3　SOAR模型

SOAR(State Operator And Result)模型[4]是一种可计算程序体系结构表达的通用认知模型。其研究目的在于开发通用智能体所必需的基本计算块。这些智能体可以执行各种各样的任务，编码、使用和学习各种类型的知识，以实现人的认知能力，如决策、解决问题、规划能力和自然语言理解能力。SOAR模型为解决人工智能在动态复杂环境下能够自动使用知识、持续学习来完成任务提供了灵活的计算框架。

简单来说，SOAR模型是由State、Operator、Result组成的，即运用算子、改变状态、产生结果。在SOAR模型中，所有问题的求解过程均被看成是在问题空间中目标导向的捜索过程，在此过程中，不断地尝试应用当前的算子(一个状态只能选择一个算子)，改变问题求解状态，直至目标。状态、算子、结果的定义如下[5]。

1.状态(State)

状态是问题空间的点集，表示为问题求解过程中每一步问题状态的数据结构，可能由多个属性组成，可形式化地表示为

Sk={Sk0，Sk1，…}

(2.1)

在这种表示方式中，当每一个分量都给予确定的值时，就得到一个具体的状态。目标(Goal)是状态的驱动力，状态存在的原因与实现目标有关，即目标决定状态(G→S)。当某一状态的结果值与问题目标值相同时，则该状态为最终状态。

2.算子(Operator)

算子即操作，用来实现问题当前状态向新的状态发生转移，SOAR模型的决策过程是围绕算子的提出、选择和应用进行的。算子就像人们解决问题的方法，人们解决一个问题可能有多种方法，在某一情境下，从中选择最合适的方法来解决问题。SOAR模型的基本操作就是提出算子、选择算子、应用算子，使状态发生转移，通过不断的循环，最终达到目标状态而停止。

3.结果(Result)

结果即目标(Goal)，是一个特殊的状态，当状态的各属性值等于目标的特殊值时即为结果。结果可以根据具体问题指定，也可以人为控制，比如在SOAR模型运行时，强制暂停而获得结果。

SOAR模型的框架结构如图2.3所示，其中，基于符号的长期记忆是指被编码为产生式规则的单一的长时记忆，基于符号的工作记忆是指被编码为符号图结构的工作记忆。基于符号的工作记忆存储了智能体对当前环境及情况的评估，利用长时记忆回忆相关知识，经过输入、状态描述、提议算子、比较算子、选择算子、算子应用、输出等这样的决策过程，循环选择下一步操作，直到达到目标状态。

图2.3　SOAR模型的框架结构

SOAR模型的独到之处在于把问题空间作为面向目标的基本组织单元。与将单个规则的选择作为决策的关键不同，SOAR模型会借由规则提出、评估和应用来选择算子，以实现决策。算子会由测试当前状态的规则提出，在工作记忆中创建算子的表征形式以及可接受的偏好。附加规则会去匹配提议的算子，通过评估其他算子来创建附加偏好。在决策过程中分析偏好，选择最优算子。匹配到当前算子的规则将触发应用，并修改工作记忆。修改工作记忆可以是简单的推论、查询以提取SOAR模型的长期语义记忆或情节记忆、对运动系统下达指令来执行环境动作。对工作记忆的修改会导致系统提出和评估新的算子，然后选择并采用新的算子。

与GOMS模型受限于熟练用户不同，SOAR模型能够解决非熟练用户的行为建模与预测问题。作为一个认知框架，基于SOAR模型能够建立起可运行、可发展的用户模型。SOAR模型的风格更接近于认知工程，能处理非熟练用户在交互过程中遇到的“僵局”(Impasse)。当交互中用户遇到不知道怎么解决的问题时，就需要找到能够解决问题的操作方案，这种局面就是SOAR模型中所谓的僵局。在SOAR框架下，建模者能够就用户发现僵局的时间、为打破僵局而查找解决策略的时间以及找到解决方案前所需消耗的步骤提供合适的判断细节。这些参数为非熟练用户或者日常用户的行为提供了可用的预测方法。不过，与前述基于GOMS框架的相关方法类似，要实现SOAR框架下对系统任务的良好分析与相应的细节定义，仍然是一项比较困难的任务。

2.1.4　ACT-R模型

ACT-R(Adaptive Control of Thought-Rational)模型[6]是一种从认知基础理论出发的认知框架。其目的在于揭示人类组织知识、产生智能行为的思维运动规律。该理论试图将认知过程表达成一种模式，定义人类大脑中的认知和感知操作的基本元素，用不可分的认知操作元素和相应的构成框架对人的认知行为建模。

总体而言，人们获得新知识有三个阶段：陈述性阶段、知识编辑阶段和程序性阶段。在陈述性阶段，人们获得的是有关现实的陈述性知识，并且运用可行的程序来处理或理解知识。陈述性知识是以组块结构表征的，一个组块由一独特的识别器和许多具有一定值的空位组成。空位可以是另一组块，也可以是一个或一系列外部客体，从而实现了各个知识点的连接。在知识编辑阶段，学习者通过形成新的产生式规则或用新规则代替旧规则使得新旧知识产生联系。最后是程序性阶段，学习者形成与任务相适应的产生式规律，这些产生式规则的执行结果被写回各个子模块中。产生式可以被扩展概括，根据使用程度不同得到强化或削弱[7]。

图2.4展现了ACT-R 5.0的基本体系结构。该结构包含一系列模块，每个模块用于加工不同种类的信息。主要模块包括：用来辨别视野中物体的视觉模块(Visual Module)；控制手部运动的手动模块(Manual Module)；明确当前目标和意图的意图模块(Intentional Module)；获得记忆中信息表征的陈述性模块(Declarative Module)；产生式(Productions)规则对大部分模块中的信息不敏感，仅仅针对存储在模块缓冲器中的信息做出响应，类似人的反应过程，人们不会关注视野中的所有信息，仅仅在意需注意的信息；提取缓冲器(Retrieval Buffer)用于保存长时记忆所获得的信息；手动缓冲器(Manual Buffer)用于控制和调节手部运动；视觉缓冲器(Visual Buffer)用于保存物体的位置，辨别物体的特点。

图2.4　ACT-R 5.0的基本体系结构[6]

视觉模块与手动模块：人类通过视觉模块和手动模块与外部自然环境交互，由中央产生式系统统一调配。例如，当一个产生式系统需要定位一个物体时，首先产生式规则详细描述一系列约束条件，然后位置系统返回满足这些约束条件的位置的堆。约束条件是一些属性价值对。属性价值对是以对象的空间位置(例如顶部)和对象的属性(例如红色)为条件来进行搜索的。

意图模块：人类在问题求解过程中常常需要用到问题选择和目标逼近的方法。汉诺塔是一个经典的目标操作性研究范例。目标模块存储着类似汉诺塔中的子目标。

陈述性模块：陈述性模块存储了大量的知识，并以堆块的形式存储，由诸如“华盛顿特区是美国首都”“法国是欧洲国家”或“2 + 3 = 5”等事实组成。

产生式规则：产生式规则实现模块间行为的调节和信息的处理，仅仅对堆积在其他模块缓冲器中的信息做出响应。执行过程将其他模块中的信息调入缓冲器中，缓冲器中的信息再经基本神经中枢系统中的产生式规则改变，写回相应的子模块。

认知体系结构同时存在着串行加工与并行加工。例如，视觉系统需要处理整个视野，陈述性系统需要提取请求并通过记忆执行并行搜索。不同模块都可以同步或异步执行。串行加工一方面体现在任何缓冲器一次只能提取一个记忆，或者编码单个个体，另一方面体现在每个周期内只能选择一个产生式进行激发。

此外，ACT-R区别于同类其他理论的重要特征之一是已有大量实验信息可以直接被研究工作使用。这为许多研究工作提供了很好的研究环境。从表面看来，ACT-R 类似编程语言平台，平台的构建基于许多心理学研究的成果，但基于ACT-R构造的模型反映的是人类的认知行为。ACT-R通过编程实现特定任务的认知模型构建，研究人员利用ACT-R内建的认知理论再加上特定任务的必要性假设和知识描述构造特定任务的认知模型，通过对模型结果和实验结果的比较来验证模型的有效性，再利用符合人类认知行为的模型指导工作，从而实现预期的任务预测、指导和控制的目的。

2.1.5　EPIC模型

EPIC(Executive-Process/Interactive-Control)模型[8，9]是由一种能够用于多通道、多任务行为建模的认知框架。EPIC框架不仅要把人类感知和运动处理方面的关键因素整合到认知理论框架，还要对相应机制在人类行为表现中的影响建模。

EPIC架构具体到交互中常用的眼、耳、手等多通道的人类感知和运动系统，还显式地包括了注意力、工作记忆、大脑处理规则等认知系统的相关描述，为比较复杂的多通道、多任务场景的建模提供了比较完整的可计算、可运行的描述基础，能够实现对任务执行时间的量化估计。EPIC模型假设：①恰当的指导语能够促进多任务的并行加工；②用户能够通过练习将陈述性知识转化为程序性知识，促进多任务的并行加工；③在知觉(视觉、听觉)加工阶段和动力加工阶段，环境会导致认知加工阶段出现瓶颈。与其他理论模型不同，EPIC 模型从知觉(视觉、听觉)加工、认知加工及动力加工等方面来解释实际环境中的用户行为[10]，如图2.5所示。

图2.5　EPIC模型图解[10]

(1)知觉加工：知觉加工系统用于监测和辨别虚拟任务环境中的刺激，并将该刺激存入工作记忆中备用，不同感觉通道采用并行方式对信息进行加工和存储。知觉加工包含听觉加工(Auditory Processor)与视觉加工(Visual Processor)。

(2)认知加工：认知加工系统由工作记忆(Working Memory)、产生式规则记忆(Production Memory)及产生式规则解释(Production Rule Interpreter)这三个子系统组成。工作记忆子系统存储多种信息元素。这些元素使多重任务的同时进行成为可能。产生式规则记忆子系统存储有关任务进行所需要的应用规则。当用户进行技术性任务时，产生式规则记忆与工作记忆子系统共同发挥作用，使多任务行为突破了知觉动力系统的限制。该子系统用于解释用户执行任务时选择的规则，对产生式规则记忆子系统中存储的规则条件进行解释和检测，选择与当下工作记忆元素相匹配的规则传递给认知加工系统。

(3)动力加工：动力加工系统将认知加工系统传递来的信息转化为具体动作特征，在特定条件下，某些特征与预先准备的反应动作相匹配，从而向用户发出执行动作的指令。动力加工包含视觉动力加工(Ocular Motor Processor)、语言动力加工(Vocal Motor Processor)、手动动力加工(Manual Motor Processor)与触觉加工(Tactile Processor)。

真实情景中的人机交互是在多元化、复杂的环境中进行的，不同感觉器官协同合作，将外界的刺激信息传递给大脑，大脑皮层接收到刺激信息后，再通过编码将相应的行为反应方式传递给各感觉器官，个体才能够做出相应的行为反应。EPIC 模型是一个更加贴近真实情景的用户行为预测模型，它从知觉和注意的角度对用户行为进行多角度的测量和分析，让用户在多重环境中实现多目标任务成为可能。利用EPIC模型对用户界面进行可用性评估有助于界面设计师从用户角度思考用户的操作行为，从而设计出更加适合在多元环境中进行多重任务的高可用性界面。随着人机交互研究的关注点越来越倾向于自然化的多通道、多任务的交互场景，这一模型也在一定时期引起了研究者的重视，但是由于与多数认知框架同样的局限，EPIC框架中所需考虑的参数和所能提供的参数范围都远远大于人机交互研究所需要考虑的范畴，所以由此带来的额外代价也极大地限制了在人机交互中所能起到的作用。

2.1 用户认知模型

2.1.1 MHP模型

2.1.2 GOMS模型

2.1.3 SOAR模型