人工智能注意力机制:体系、模型与算法剖析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.2 认知心理学中的注意力

20世纪初期,行为心理学(Behavioral Psychology)在美国诞生。该流派认为意识这种发生在头脑中看不见摸不着的东西是“鬼火”,不应该作为心理学的研究对象,心理学应该去研究从人的意识中折射出来的客观存在——行为。在这一思路的指导下,自然有很多心理学家尝试用行为来解释注意力。例如,美国心理学家约翰·弗雷德里克·达希尔(John Frederick Dashiell,1888—1975年)在其1928年出版的行为主义著作《客观心理学基础》(Fundamentals of Objective Psychology)中,将注意力解释为一种“举止”(posturing)[12]。但是这种试图用某一种外化行为解释内心活动的做法过于苍白无力,自然难以成功。然而,正是因为行为心理学以看得见摸得着的人类行为作为研究对象,容易借助生物、物理等学科的理论和方法作为其研究和实验手段,这些偏“实在”的特性使得其一时间成为心理学的主流方向,产生了极大的影响力。在相当长的一段时期,使注意力这种与意识和认知高度相关的过于“虚幻”的对象,长期受到冷落。

第二次世界大战以后,信息、通信等理论获得突飞猛进的发展,再加上心理学界对行为主义的广泛质疑,人们开始试图用信息加工的过程来刻画认知过程。20世纪50年代,认知心理学(Cognitive Psychology)应运而生,重新将认知作为研究的核心对象。对注意力的研究也随之迎来了重大转机,重返“C位”。

英国电气工程师、认知学家爱德华·切瑞(Edward C. Cherry,1914—1979年)在1953年提出“鸡尾酒会效应”(Cocktail-party Effect),描述了人能够在嘈杂的环境中排除干扰,把注意力集中在和某人的交谈上这一现象。受到切瑞观点的启发,1958年,英国著名心理学家唐纳德·布罗德本特(Donald E. Broadbent,1926—1993年)在其出版的著作《感知与交流》(Perception and Communication)中提出著名的过滤器理论[4],以此理论来刻画人类对信息加工的过程。过滤器理论认为外界的信息是大量的,而人脑的容量和加工能力又有一定的限制,于是出现了瓶颈。为了避免因“带宽不足”的超负荷问题,就需要一个过滤器来实现信息选择功能——选择其中较少且价值高的信息,使其进入高级分析阶段接受进一步的加工而被认知和存储,而其他信息则予以抛弃。在过滤器理论中,注意力就扮演信息过滤器的角色,该过滤器根据诸如图像颜色、说话人的语音特点等特定物理属性对信息进行选择。正如布罗德本特所说“注意是资源有限的加工系统的工作结果。”[13]布罗德本特的过滤器理论是认知心理学界第一个体系化的认知架构,对后来认知心理学对注意力的研究带来深远影响。由于布罗德本特过滤器理论认为注意力的选择机制发生在一切认知之前,因此该观点又被称为“早期选择理论”(Early Selection Theory)。也正是因为注意力在信息加工过程中扮演信息筛选的角色,这一类注意力机制也被称为“选择注意力”(Selective Attention)机制。但是,尽管过滤器理论能够对“鸡尾酒会效应”等现象进行很好的解释,但却很难解释一些随机的注意现象。例如,乘坐飞机飞临广阔沙漠,从悬窗望向地面,唯有一望无际的苍茫,单调而无聊。突然间,飞机下方出现一片绿洲,我们瞬间被吸引,顿时来了精神……这一切是如何发生的?过滤器理论认为认知系统试图去定位那些能够引起注意的信息输入,似乎有一种“需求就在这里,给我找出满足需求的对象”的感觉。但是上面例子中的注意力体现出极大的是随机性,根本就不存在任何预先的设定,这一现象用过滤器理论就很难解释。

在布罗德本特的过滤器理论中,注意力对信息的选择采用“非留即走”的方式进行——注意力中存在一系列选择信息的阈值,那些没有超过阈值的信息根本就不会进入认知环节。例如,以听声音为例,过滤器理论可能以声音强度为阈值,认为声音强度高于某个阈值的才会被感知,否则认为其根本就无法被察觉。显然,这种“一刀切”的方式在很多情况下与现实人类的认知现象是不符的。例如,在一个异常嘈杂的环境中,很容易注意到别人呼唤自己的名字,即便是声音很小也有可能引起注意。这就意味着那些没有被注意的信息不是直接被“挡在门外”,只是强度被减弱了。因此,在1960年,美国著名心理学家安妮·特里斯曼(Anne M.Treisman,1935—2018年)提出注意力的衰减理论。衰减理论与过滤器理论相比,有三点显著的区别:第一,在衰减理论中,注意力扮演的角色是衰减器,而不再是纯粹的二元化的过滤器;第二,衰减理论中注意力对于不同信息的筛选阈值是不同的,这一点也是显而易见的——听到陌生名字和听到自己名字能够引起注意的强度阈值一定是不同的,陌生名字的阈值高,而自己名字的阈值低;第三,衰减理论强调注意力的筛选过程受到认知的指引。同样是在“叫名字”的例子中,听到某个名字就会立即引起注意,前提是意识中已经存在这个人的名字,这一观点再次体现了注意力的自上而下机制。

无论是过滤器理论还是衰减理论,都认为注意力的选择发生在认知过程之前。然而有些心理学家则认为信息在进入过滤器和衰减器之前已经得到分析,而注意力对信息的选择发生在加工后期的反应阶段。这便是所谓认知的“后期选择理论”(Late Selection Theory)。该理论由美国夫妻心理学家安东尼·多伊奇(J.Anthony Deutsch,1927—2016年)和戴安娜·多伊奇(Diana Deutsch,1938年至今)于1963年提出。具体来说,后期选择理论描述了如下的认知过程:所有的信息首先经过一个前期分析,并被暂存在一个称为“工作记忆”(working memory)的临时存储空间中,然后注意力在工作记忆上展开选择,选择的结果被送入记忆形成认知。后期选择理论体现了注意力基于记忆的信息二次加工特性,因此也被称为完善加工理论或记忆选择理论。下面再举一个例子对后期选择理论做进一步说明。假如需要从若干个随机数字中找到其中最大的那个,我们需要逐个看一遍这些数字,这便是前期的分析;我们需要将看过的数字记在心中,这便是工作记忆的临时存储;然后我们根据记忆选择最大的那个数字,这便是注意力的选择。正所谓看遍所有数,只取最大值。

过滤器理论、衰减理论和后期选择理论的差异主要体现在注意力的选择发生在认知过程中的不同环节上。图1-2示意了过滤器理论、衰减理论和后期选择理论三种注意力选择在信息加工中的机制。后期选择理论之后,还有很多心理学家对注意力的选择机制提出了更多的观点。例如,在2006年,约翰斯顿(Johnston)等[14]学者提出了注意力的多阶段选择理论。顾名思义,该理论认为注意力对信息的选择可以发生在认知环节中的多个阶段,即认为在不同的认知场景中,注意力可以在任何阶段介入并发挥选择作用。上述这些理论讨论的核心问题都是注意力的选择特性是如何在认知过程中发挥作用的,因此这些理论共同构成了认知心理学中注意力选择的认知理论体系。

眼睛是我们最主要的感觉器官,我们对世界信息的获取绝大多数来自视觉。视觉感官接收到的信息可以说是海量的,只要是睁着眼睛,视觉场景就会源源不断地从眼前经过。但是,面对如此大规模的视觉信号,视觉系统将其中的绝大部分视为“过眼云烟”,唯有那些引发注意的少部分输入才能真正由眼入心,可以说视觉系统将注意力的选择特性发挥得淋漓尽致。那么我们不禁要问:视觉系统中的注意力基于什么因素进行聚焦,或者说视觉注意力到底在“选什么”?心理学界对上述问题一直争论到了今天,但大家普遍认为能引发注意的因素至少包括三个:特征位置物体。与之对应的即有三种类型的注意力机制:基于特征的注意力(Feature-based Attention)、基于空间的注意力(Space-based Attention)和基于物体的注意力(Object-based Attention)。其中,基于特征的注意力工作在特征层面,认为视觉刺激是形状、大小、方向、颜色和明暗度等特征的复合,某一个特征维度的信息或某几个特征维度信息的组合都可能被视觉注意系统选择性地加工。例如,在如图1-3所示的两个视觉刺激物看板中,我们可以瞬间将目光聚焦在那两个“特立独行”的图形上面。并且我们也很清楚地知道对于这两组刺激物,我们分别因形状(也可以认为是方向)和颜色引起注意。在1971年,英国认知心理学家艾伦·奥尔波特(Alan Allport)利用具有不同颜色和形状的简单视觉刺激物开展了类似视觉认知心理实验。奥尔波特在其实验中发现,在人类的视觉系统能够对颜色和形状刺激这两个不同的维度进行并行编码并进行视觉加工,通过追踪受试者的眼球运动定位其注视位置,得出人类的视觉注意力是基于视觉特征所激发的结论。

●图1-2 过滤器理论、衰减理论和后期选择理论示意图

a)过滤器理论 b)衰减理论 c)后期选择理论

●图1-3 基于形状和基于颜色的视觉刺激物示例

a)基于形状的视觉刺激物 b)基于颜色的视觉刺激物

说完“特征派”,我们再来看看“空间派”。基于空间的注意力,认为视觉系统的注意力构建在位置这一因素上,即认为视觉注意力重点解决“看哪里”的问题。这就是著名的注意定向(Attention Orientation)问题。1980年,美国心理学家迈克尔·波斯纳(Michael Posner,1935年至今)在开展了一系列视觉认知心理实验后,提出了注意定向理论(Attention Orienting Theory)。注意定向理论认为:注意力如同聚光灯下的光线般投射到视觉场景中,例如,在图1-4a中,视觉注意力首先被区域A[5]所吸引;注意力的焦点可以在场景中移动,即注意力能够定向或重定向(reorientation);注意的范围可以像变焦镜头一样进行缩放,而注意集中程度在焦点处最高,并向四周逐渐衰减。注意定向理论认为注意力投射的空间位置取决于外因和内因两方面因素,即所谓的外源性定向内源性定向。外源性定向是指根据刺激的显著性或刺激潜在的相关性引发的注意位置改变,因此没有意识指引,是一种“自下而上”的方式。例如,在图1-4b中,原本投射在区域A上的注意力被其左侧的区域B所吸引;内源性定向是指在特定目标驱动下,注意力以“带着任务”的方式产生投射位置的改变,因此属于“自上而下”的方式。例如,在图1-4c所示的例子中,注意了两个区域后,我们希望再看看还有什么其他类似的区域,因此我们带着“找类似区域”的目的将注意力焦点移动到区域C处。注意定向理论强调了注意力的分布是以特定空间位置或者区域为基础的,系统地阐述了不同注意定向方式对视觉信息加工的作用和影响。

●图1-4 视觉任务中的注意定向理论示意图

a)初次定向 b)外源性重定向 c)内源性重定向

尽管空间在视觉选择中扮演着极其重要的角色,但是人们也逐渐意识到空间并不是注意力机制的唯一因素,例如,在图1-4所示的例子中,注意力的投射和转移到底是基于“纯区域”还是“建筑物”?显然后者恐怕更能立得住脚——实际我们在看这幅照片的时候很大程度是带着看建筑的目的的。这就意味着很多注意力选择的基本单位是物体。这也正是“物体派”的观点,接下来我们再来说说基于物体的注意力。基于物体的注意力,简单来说就是因为“是个‘东西’”才引起的注意,这里的“东西”学名叫作“知觉物体”(Perceptual Objects)。所谓的知觉物体,严格来说即遵从格式塔(Gestalt)法则的、由部件构建的可感知整体。基于物体的注意力理论认为我们注意的是那些高层次的知觉物体,而构成物体的部件会被忽略。因此注意力的选择性体现为谁的对象完整性越高就选择谁。例如,在图1-5a所示的两幅图中,我们是先注意到大熊猫呢还是黑白“零件”?答案肯定是大熊猫。即便是大熊猫脸和肚子的边缘根本就没有画出,但是这一切显然是“脑补”到了,我们似乎早已感受到了“胖乎乎,圆滚滚”的形象;再例如,图1-5b所示的图形,我们最先注意到的是字母“QN”还是构成字母笔画的一个个笑脸?答案自然是“QN”。这两个例子都说明了感知物体在注意力投射时的先整体后局部特性——大熊猫作为层级远远高于黑白零件的可认知对象而得到优先注意;同样,笑脸拼成的字母“QN”在认知层级上远高于笑脸本身,故其也作为物体被优先注意。额外补充一点,格式塔理论除了解释注意力的选择机制外,还试图阐述人们对视觉输入进行分组的倾向性。还是以图1-5的两组图为例,在不看任何文字描述的前提下,甚至是在认清大熊猫和具体字母之前,我们一眼看上去就知道这幅图大致在说两件事——格式塔理论认为人的视觉系统自动会按照视觉刺激的一致性自动分组。

●图1-5 物体与部件示例

a)熊猫简笔画与打散的图案部件 b)笑脸图案拼成的英文字母

视觉场景中,物体最直接的特性就在于其能够区别于背景。例如,我们能够注意到绿草地上的一个足球,实际上我们的视觉系统已经在认知的最初阶段实现了足球(前景)与绿地(背景)的剥离。1967年,有着认知心理学之父之称的美国著名认知心理学家乌尔里克·奈塞尔(Ulric G. Neisser,1928—2012年)在它出版的著作《认知心理学》(Cognitive Psychology)中提出了人类早期视觉的两阶段理论。奈塞尔认为人类的早期视觉分为预注意阶段(Pre-attentive Stage)和聚焦注意阶段(Focal Attention Stage)两个阶段。其中,在预注意阶段,视觉系统并未产生真正的意识,仅仅是从场景中获取视觉刺激。这些刺激表现为场景对象的各类视觉特征;在聚焦注意阶段,大脑中的视觉神经系统会将这些特征进行融合,形成一张注意力分配图,指明场景中注意力在不同对象上的分布,然后以此再去指导眼球朝着显著区域运动。两阶段理论的选择注意力机制体现了被注意的基本元素不是纯粹的特征或空间位置,而是物体。注意力分配图可以视为注意力在视觉场景上的“掩膜”,因此已经体现了分离前景和背景的机制,蕴含了基于物体注意力的思想。下面我们举一个例子说明两阶段理论描述的注意发生过程:小明走在昏暗的街巷中,突然在他的左前方亮起一个灯带拼成的红色大字,于是小明的认知系统开始工作。首先,预注意阶段提取场景中各要素的特征,其中包括字的笔画和亮度特征;然后,聚焦注意阶段将这些特征进行融合形成注意力分配图,由于字的位置笔画纵横且闪闪发亮,而场景中其他的区域漆黑一片,所以唯独字的位置在注意力分配图上最为显著;最后大脑按照注意力分配图给眼球下达了“看左前方”的指令——小明定睛一看,原来那是一个大写的“串”字,认知完成。基于物体注意力的特性体现为小明在认清“串”字之前,已经意识到了左前方有一个“亮东西”的存在。也正是因为上述两个阶段均发生在小明看清“串”字之前,因此才称为“早期视觉”。尽管奈塞尔的两阶段理论已经体现了选择注意力是“选物体”的诸多性质,但是正式将基于物体注意力“搬上台面”讨论的是剑桥大学心理学家约翰·邓肯(John Duncan)。1984年,邓肯发表其具有开创性的研究成果,标志着视觉注意力选择单位概念变化的开始。如图1-6所示,在邓肯的对比试验中[6],要求受试者完成3组认知实验:第1组实验为报告某对象上的一个特征,如说出苹果的颜色;第2组实验为报告相同对象上的两种特征,如说出香蕉的颜色和形状;第3组实验为报告不同对象上的两种特征,如说出苹果的颜色和香蕉的形状。结果表明第2组实验与第1组实验相比,受试者报告的正确率没有明显变低,但到了第3组实验,受试者的正确率却明显降低。实验结果一方面说明了基于空间注意力的不合理性——这些实验的空间位置并未发生改变,但结果却大相径庭;另一方面说明,人在认知过程中更倾向于将不同特征和物体捆绑为一个整体,这就意味着注意力选择的基本元素是带着各种特征的物体。

●图1-6 邓肯视觉认知对比实验(水果版)

特征在我们的认知过程中扮演着重要的角色,我们所认知的万事万物都可以用不同维度的特征来描述。例如,我们能够快速且准确地分辨一个红色的圆形,这一分辨过程使用到颜色和形状两个维度的特征,且这两个维度的取值分别为红色和圆形。但是,无论是在注意力的选择理论还是奈塞尔的早期视觉两阶段理论中,注意力可以针对不同维度的特征进行筛选,实现特征的获取,然而这离我们形成认知还差了关键的一步:平行获取的特征如何正确地关联起来,形成我们的认知整体——毕竟我们认知的不是独立的“红色”和“圆形”,我们认知的是“红色的圆形”。这便是认知心理学中的“捆绑问题”(binding problem)。衰减理论的提出者、美国心理学家特里斯曼意识到解释捆绑问题的重要性,于1980年提出著名的特征整合理论(Feature Integration Theory),该理论为后续认知神经科学和计算机科学对注意力机制的研究都有着极其深远的影响。与奈塞尔的观点类似,特征整合理论将信息的加工过程分为特征获取和特征整合两个阶段。在特征获取阶段,注意力以分散和并行的方式获得认知对象在不同维度的特征。获取每一个维度的特征后,认知系统都会对其进行独立编码,每一类特征的独立编码都称为“特征图”(Feature Map)。在这一阶段,注意力基本上是以自动化加工的方式进行的,是难以觉察的;在特征整合阶段,注意力通过空间位置将不同特征进行“粘合”,以此来解决特征的捆绑问题,从而形成我们对对象的整体认知。在这一阶段,需要注意力逐个加工每一个认知对象,即在加工某一对象时,其他对象暂时处于被遮挡状态。因此该阶段注意力是以类似受控加工的模式开展工作。图1-7所示为特征整合理论对信息的加工流程。在理解早期视觉两阶段理论和特征整合理论时,都有着似曾相识、甚至“倍感亲切”的感觉。的确,特征理论处处体现了计算机视觉特征提取与融合的基本理念——我们使用不同的滤波器作用在图像上,为的就是得到图像不同的特征?再说眼前,我们在深度学习中广泛使用的深度卷积网络,不正是在反复应用特征的获取与特征的整合?只不过这些特征是任务驱动下的、难以名状的特征而已。

●图1-7 特征整合理论对信息的加工流程

视觉感官接收到的信息可以说是海量的,只要是睁着眼睛,视觉场景就会源源不断地从眼前经过。但是,面对如此大规模的视觉信号,我们的视觉系统将其中的绝大部分视为“过眼云烟”,唯有那些引发注意的少部分输入才能真正由眼入心。那么,我们的视觉系统是如何决定“看哪里”的呢?

认知心理学中,还有一类重要的观点是将注意力看作是一种认知资源。既然是资源,那就意味着需要考虑其分配问题。1973年,以色列著名心理学家、诺贝尔经济学奖得主丹尼尔·卡内曼(Daniel Kahneman,1934年至今)在其著作《注意力与努力》(Attention and Effort)中就将注意力视为认知资源。卡内曼认为人的注意力资源总量是有限的,注意力具有能够在不同任务间进行分配的特性——如果一个任务没有占用所有注意力,那注意力就可以再分配到其他的任务上。上述观点在我们的日常生活中的例证可谓比比皆是。例如,在刚开始学开车的时候,我们双手紧握方向盘,目不转睛直视前方道路,丝毫不能有一丝分心,仿佛投入了全部的注意力;但是当我们成为“老司机”以后,我们可以一边开车一边听音乐,同时还查看着电子地图,仿佛开车这件事已经不需要投入全部的注意力。那么问题来了,多个任务同时抢占注意力资源的时候会不会产生阻塞,或者导致某些任务的质量下降?1975年,美国学者、作家唐纳德·诺曼(Donald A.Norman,1935年至今)与计算机科学家丹尼尔·鲍勃(Daniel G.Bobrow,1935—2017年)一起对这一问题做出了进一步的阐述。在其文章中,以类似“计算机”的方式,讨论了当多个任务共同使用注意力资源时,什么情况下可能会出现相互干扰的问题。二位学者还认为当注意力资源受到限制时,任务的完成质量会降低。上述观点是显而易见的,可以概括为两句话——同时干好多件事往往很难,要干好一件事必须集中注意力。沿着心理资源分配的思想,人们开始思考决定注意力分配的因素到底是什么的问题,首先发现注意力的分配和熟练程度与任务的难度有关,从而进一步引出了注意力的“自动与受控加工”(Automatic and Controlled Processes, ACP)理论。ACP理论体现了注意力分配过程中存在自动化加工和受控加工两个方面的特性,由美国心理学家沃尔特·施耐德(Walter Schneider)和理查德·希夫林(Richard M.Shiffrin,1942年—至今)在1977年提出。在ACP理论中,自动化加工体现了在面对简单任务时,认知的过程会体现为在非刻意情况下的自动完成,认知过程对注意力的资源耗费极低。例如,通过反复练习使得我们可以轻松完成某个任务,即“熟能生巧”,前面开车的例子就非常能说明问题;再例如,运动员反复练习某动作,逼迫自己出现“想都不用想”的应激能力,这种能力也称为“肌肉记忆”。而受控加工指的是面对较难任务时,我们的认知系统会自动为其分配更多的注意力资源。还是以开车为例,在熟悉的路段上,我们可以“轻车熟路,谈笑风生”,这时体现出了注意力的自动化加工机制;当到达不熟悉的路段或者路况变得复杂时,我们又回到了聚精会神的驾驶模式,这表明受控加工机制开始启用。从卡内曼开始将注意力作为一种心理资源,到随后注意力资源的分配等各种机制的讨论,都属于认知心理学中注意力分配的认知理论范畴。

1980—1990年间,认知心理学界对注意力的研究已经变得相当的广泛,产生了大量关于注意力的理论。然而,可惜的是没有一个理论能够完美地解释所有认知现象。人们似乎察觉到自己之前把注意力想简单了。随着研究的深入,人们发现注意力在认知中扮演的角色远比想象中的要复杂得多,甚至开始对注意力的存在性产生了质疑。历史就是这样充满了戏剧性,19世纪80年代末,注意力把心理学家们再次逼到窘境,这与90年前的哲学家们面对的局面是何其的相似——费尽心思提出的理论却解释不了现象。1890年,美国心理学之父詹姆斯发出“人人都知道什么是注意”的呐喊,给心理学家们指明了道路。可90年后的此时此刻,人们却发现自己对注意力似乎一无所知。正如波斯纳在其著作《注意力心理学》(The Psychology of Attention)中回顾此时的境地时,发出“没有人知道什么是注意力”的感叹。看来,又到需要技术革命来突破困境的时刻了。