人工智能:智能人机交互
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 用户运动模型

在用户与系统进行交互时,其运动行为往往不是一种预期的结果,而是在一个“观察-决策”的动态过程中形成的,如何对该过程进行合理的描述和解释是人机交互用户运动建模研究的主要内容。我们可以将相关用户运动模型研究分为两类,一类与用户的运动表现相关,包括用户在与系统交互过程中的运动时间、准确性;另一类与用户的运动过程相关,包括运动的控制,即用户运动过程中的位置、速度、加速度等物理量随时间的变化。

2.2.1 用户运动时间模型

1.Fitts’Law(菲茨定律)

Fitts’Law[11]是由保罗·费茨于1954年提出的。针对人机交互中的目标获取任务,Fitts’Law能够精准预测用户获取目标的运动时间(Movement Time,MT)。

具体而言,对于图2.6所示的一个目标获取任务,用户需要尽可能快速并且准确地从光标初始位置选中宽度为W的目标,完成任务的运动时间MT可以由式(2.2)给出,即

img

图2.6 Fitts’Law目标获取任务

img

(2.2)

式中,MT为完成任务的运动时间;A为光标起始点到目标中心的距离;W为目标的宽度;ab为由指点设备、操作人员和环境因素决定的经验参数[12]。式(2.2)中的对数项被称为难度系数ID(Index of Difficulty):

img

(2.3)

该系数越大,意味着完成任务的难度越高。难度系数的提出有着重要意义,它直观地提示了任务的完成难度与运动幅值A(Amplitude,目标的距离)正相关,与目标的宽度W负相关。实际上,这种由完成任务的运动时间表现出的任务难度,其背后的作用机制来自人类运动控制的速度准确性权衡原则(Speed-Accuracy Tradeoff Rule)。

由于Fitts’Law对运动时间的准确估计,因此被广泛地用于人机交互研究和设计当中,包括计算机输入设备评估、新型交互界面的优化、复杂手势识别算法的预测元素和复杂交互任务的建模基础等。例如,在主流操作系统的菜单设计中,默认都将底栏(Dock)放到屏幕的最下方,通过增大目标以缩短定位时间(边缘无限大)。用户向着底栏方向做出大幅度移动光标的操作会使光标始终落在底栏上。Fitts’Law鼓励减小距离,增加目标大小以提升用户效率,但反过来应用也会有意想不到的效果,比如iPhone手机关机,不采用按钮单击,而采用滑动操作,虽然降低了用户操作效率,但增加用户操作时间可以起到警示用户谨慎操作的目的。

Fitts’Law描述的交互任务是一个简单的1D目标获取任务,然而,2D或3D的目标获取任务在交互系统中则更为常见。出于这个目的,麦肯齐[13]对Fitts’Law进行了2D目标获取任务的拓展,如图2.7所示。他利用一个简单但巧妙的原则解决了2D目标获取问题,将2D矩形目标中相对较小的边替换式(2.2)中的W,因为目标获取对于准确性的要求是由“相对较小的边”决定的,在原始Fitts’Law的1D实验中,目标的高度被设置为足够大,以至于用户不必考虑其影响,这个“相对较小的边”一直为W,因此Fitts’Law的1D目标获取实际上是麦肯齐二维目标获取的特殊情况。

村田[14]进一步将Fitts’Law拓展到3D空间,如图2.8所示,他发现除了距离和目标大小,目标所在的垂直平面(Board)与用户视野中心构成的方向角度θ对获取运动时间有着显著影响,因此将方向角度θ加入原始的难度系数表达式,如式(2.4)所示,得到了3D空间目标获取运动时间更为精准的预测。

img

(2.4)

式中,d即为目标距离;s为目标直径(它们为了简明使用了一个球形目标);c为与任务和设备相关的常数。

img

图2.7 麦肯齐定义的2D目标获取任务

img

图2.8 村田定义的3D目标获取任务

2. Steering Law

Steering Law是由约翰尼·阿科特和翟树民在文献[15]中提出的,用于对轨迹任务的运动时间进行预测。例如,在嵌套菜单列表中移动、绘制曲线、在虚拟3D场景中移动,这些交互场景存在着大量的基于轨迹的交互任务,无法使用Fitts’Law建模。

基于轨迹的交互任务可以被抽象为用户控制光标移动并通过一个有大小和长短约束的通道的过程,如图2.9所示。

光标通过该通道的运动时间可以由式(2.5)给出:

img

(2.5)

式中,A为通道的长度;W为通道的宽度;ab为常数。

img

图2.9 Steering Law中一个长为A、宽为W的笔直通道

经过推导,Steering Law可以拓展到任意有理通道上,如图2.10所示。在一般情况下,完成任务时间可以表示为对无数多个微小的笔直通道的积分:

img

(2.6)

img

图2.10 Steering Law中一个以c为曲线、W(s)为宽度的弯曲通道

事实上,在Steering Law中,轨道的长度与Fitts’Law的目标距离有着同样的含义,在“尽量快且准确”的要求下,从运动距离上对完成任务的速度给出了限制,而Steering Law中的通道宽度与Fitts’Law中的目标宽度则是对完成任务的准确度给出了限制。成功预测目标获取任务和轨迹任务这两类任务的运动时间,都是基于对人类运动控制中的速度准确性原则的把握。

2.2.2 用户运动错误率模型

错误率是人机交互中最为重要的因素之一。错误率模型广泛应用于文本输入和计算机游戏等各种交互场景。对于一个需要用户获取的目标,例如虚拟键盘中的按键或者游戏中的敌人,给出目标距离、大小和完成目标获取所限定的时间,利用错误率模型便能预测用户选中它们的概率,对设计者重新修改和完善界面设计将给予很大的提示和指导,例如增大虚拟键盘按钮的尺寸或者降低游戏中敌人的移动速度。

在目标获取任务中,错误率被定义为所有目标获取尝试中失败的比例。对于基础的目标获取技术,当用户获取目标的落点落在目标的范围之外时,则认为尝试失败。尽管对错误率的研究在大多数人机交互工作中都有涉及,但仅有为数不多的工作对错误率本身进行了建模。沃布罗克[16]利用Fitts’Law和有效宽度,对落点分布规律进行分析,推导出了一个1D目标获取的错误率模型:

img

(2.7)

式中,erf(x)为高斯误差函数;ab为Fitts’Law中的常数项;W为目标的大小;A为到目标的距离;MTe为由有效距离和有效宽度计算出来的目标获取运动时间。实验结果显示,该模型能够很好地拟合经验数据(R2=0.959),并从观察中得到目标大小对于错误率的影响比目标距离更为显著。

李炳珠[17]提出了时域目标获取(Temporal Pointing)的概念,在时域目标获取任务中,目标的距离是从任务开始到进入目标获取窗口的时间,目标的大小则是能够选中目标的时间窗口长度,例如一个简单“打节拍”的交互任务。

在这项研究中,他从时域选择落点分布出发,导出了一个时域目标获取的错误率模型:

img

(2.8)

式中,Wt为时域目标的大小;Dt为时域目标的距离;cμcσ为常数。这个模型显示,更小的时域目标大小和更大的时域目标距离将导致更高的错误率。这是对常理的一种定量化解释。

时域目标获取属于动态目标获取的一种。时域目标获取的错误率模型只能应用于相对抽象的时域交互场景,不适用于广泛和直观的空间目标获取任务,尤其是动态目标获取任务。对于空间域下的目标获取任务,本书作者所在团队的黄进等人[18]提出了相应的移动目标错误率预测模型,如图2.11所示。

若随机变量x服从一个位置参数为μ、尺度参数为σ的正态分布,则累积分布函数可以写成:

img

图2.11 错误率预测模型(通过对分布在目标外的部分进行积分计算得出错误率)

img

(2.9)

通过以下公式,能够计算出随机变量x落入范围(-∞,x)的概率:

img

(2.10)

式中,erf(x)是高斯误差函数,且

img

(2.11)

通过这个定义,错误率(Error Rate)为随机变量x落入范围(x0x1)的概率,这里的x0x1分别代表目标的左右边界:

img

(2.12)

2.2.3 用户运动控制模型

与用户运动时间模型、错误率模型不同,用户运动控制模型能够直接对运动过程建模分析,从动力学的角度仿真运动过程中的轨迹、加速度等信息。代表性的运动控制模型包括Minimum Jerk模型和Linear-Quadratic-Gaussian模型。

1. Minimum Jerk 模型

Minimum Jerk模型[19]由塔马尔和霍根于1985年提出。该模型假设最大限度地提高运动系统的平稳性(或最大限度地减小冲击力,即加速度与时间的导数),使运动轨迹尽量平滑。对于二维平面上的运动,该模型定义最小化的代价函数(Cost Function)为:

img

(2.13)

式中,t0为起始时间;tf为终止时间;xy为待求解的轨迹路径坐标点。给定一组适当的边界条件,这种运动控制问题可被构造为具有内点等式约束的最优控制问题,该问题产生一个具有唯一解的闭解析形式(本质上根据其边界条件解析为轨迹的函数关系)。对于点对点运动,一种通用的最优时间序列解析计算形式为五阶多项式。

考虑常见的起止时刻均为静止状态(速度加速度均为0)的一类运动,若已知起始点是(x0y0),终止点是(xfyf),运动时间是tf,那么可以得到最优时间序列解(运动轨迹点)为:

img

(2.14)

运动时刻t的轨迹点坐标为(xtyt),一系列的轨迹点构成了一条完整的运动路径,通过积分运算也能够获得运动过程中每一时刻的速度、加速度等信息。尽管该模型十分易于计算,却不能够预测绝对的运动时间,并且由于该模型假设能够实现最优运动,认为用户能够一次性准确选中目标,并没有对矫正运动过程进行建模。

2. Linear Quadratic Gaussian模型

Linear-Quadratic-Gaussian模型[20]是由托多洛夫等人提出的一种基于最优反馈控制理论建立的运动模型。最优反馈控制系统是一种闭环最优控制系统,可在线地利用反馈信息重新做出决策,实现对系统的最优化控制。相比开环控制系统,闭环控制系统采用了更加类人的处理模式。这种模式不再依赖于提前预知的“期望轨迹(Desired Trajectory)”,而是能够在不可预测的波动下反复再现。

该模型将运动过程近似于由一个受控制的力所推动的质点运动,可以被定义为一个线性动态系统,其中,在离散时刻t的系统状态为xt,控制信号为ut,感知反馈为yt

img

(2.15)

在每个时刻t,通过当前观测到的反馈yt,控制器必须找到最优控制信号ut,使得整个运动过程产生的损失(Cost)最小。其中,控制信号ut用于模拟用户的中枢神经系统对手部运动发出的控制指令;反馈信号yt用于模拟用户得到的视觉和触觉反馈,当控制命令发出后,推动质点的力遵循命令并推动质点运动,用此来模拟用户手部力量推动指点设备运动的过程;ξtωt是两个独立多维正态随机变量,均值为0,协方差矩阵为Ω ξΩ ω,可以模拟控制和感知过程中的白噪声;随机变量εt是一个独立的标准正态分布随机变量,与控制向量相乘用于产生控制信号依赖的噪声(Control-Dependent Noise);RQt是两个系数矩阵,用于定义系统与状态和控制信号有关的损耗,反映用户的身体消耗、速度和准确性之间的权衡。总之,整个系统的运行模拟了用户根据任务需求、个人消耗、速度准确性权衡动态地调整行为的过程。

将运动控制模型与具体交互任务相结合,有助于仿真用户的运动过程,实现对用户运动行为的预测,优化交互设计。例如,菲利普·奎因[21]将Minimum Jerk模型应用于手势键盘的文本输入任务,建立手势输入的过程模型,仿真用户的输入手势轨迹,预测用户的输入时间性能,最终实现任意文本输入任务的真实手势轨迹模拟,并能准确反映用户观察到的轨迹图形形状以及动态特征(速度、加速度等)。黄进[22]将Linear-Quadratic-Gaussian模型应用在目标获取任务中,通过拟合经验数据的轨迹对目标获取运动的过程特性建模,能够利用该模型模拟任意位置的静止目标或者任意速度的移动目标的获取任务。通过控制目标大小、位置、运动规律的不同组合,还可以模拟复杂的用户界面交互行为,例如通过模拟用户在购物网站上的运动模式预估用户在该购物网站的购物难度和购物效率。