人工智能注意力机制:体系、模型与算法剖析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.2 认知神经科学中的注意力研究

在上一小节,我们介绍了认知神经科学是如何开展认知研究的,算是做了个简单的铺垫。这一小节我们重新将注意力集中在“注意力”上。

无论是我们的直观感受还是认知心理学的理论模型,都告诉我们,人类的视觉系统在进行信息加工时,对输入的信息绝不是“一揽子全收”,而是依赖注意力在视觉场景中“划重点”。那么这个现象是否能够得到脑机制层面的理论支持呢?这个问题已经触及了“视觉感受野”(Visual Receptive Field)这一概念的核心。首先,视网膜上的光感受细胞本身就只分布在某些特定的区域,这就意味着眼睛作为“传感器”在一开始就对输入的信号做了有侧重的筛选。更重要的是,随后视觉信息在进入大脑后,视觉皮层对视觉信息的逐级加工过程也是有重点感知区域的,这些重点感知区域即视觉感受野。早在1958年,著名神经科学家大卫·休伯尔(David H. Hubel,1926—2013年)与托斯坦·维厄瑟尔(Torsten N. Wiesel,1924年至今)在对猫视觉皮层的研究中就首次提出视觉初级皮层V1中的感受野特征,并基于感受野的结构对视觉皮层细胞进行分类。除此之外,二位学者还认为视觉系统某一层级皮层的细胞感受野是由视觉系统较低层级皮层细胞的输入形成的。这说明了感受野具有层级嵌套结构。值得一提的是,正因为在视觉信息加工方面取得的一系列卓越成果,休伯尔和维厄瑟尔二位先驱在1981年获得诺贝尔生理或医学奖。尽管二位学者在他们的研究中只字未提“注意力”一词,但是视觉感受野的概念本身就体现了注意力在视觉认知过程中扮演的信息筛选角色,注意力的作用机制与视觉感受野息息相关,所以我们将其视为是视觉注意力重要的生理基础,甚至认为其就是一种广义的注意力机制[10]

随着研究的深入,神经科学家们根据视觉系统的生理和功能特点,对视觉认知的过程和发生位置进行了进一步细化,普遍认为视觉信息在脑中的加工沿着两条通路进行,即所谓的“双通路假设”(Two-streams hypothesis)。双通路假设认为视觉信息抵达初级视觉皮层V1后,通过V2和V3两个中间级别的视觉皮层加工后“兵分两路”:其中一路称为腹侧通路(Ventral Stream,也称为“枕-颞通路”),该通路从V3区开始,经过V4区,再到下颞叶的TEO和TE区。腹侧通路中的神经元主要对颜色和形状等物体特征进行反应,其功能主要体现为对物体的识别,因此也被称为“What通路”(如图1-11中彩色箭头所示);另一路称为背侧通路(Dorsal Stream,也称为“枕-顶通路”),该通路从V3区开始,经过位于背内侧区和中颞的MT区,然后抵达后顶叶(Posterior Parietal Cortex, PPC)皮层区。背侧通路的神经元主要对运动速度与方向等特征进行反应,功能是对物体空间位置和运动进行识别,因此也被称为“Where通路”(如图1-11中黑色箭头所示)。上述两个通路的信息加工模式及其在认知过程中扮演的角色均是在对猕猴的脑功能进行研究后总结得到的,其中腹侧通路假设在1968年提出,背侧通路假设在1972年提出。

●图1-11 视觉系统的“双通路假设”示意

在腹侧和背侧两条通路中,处于不同层级的神经元在结构和功能上存在明显差异,信息处理的形式也存在很大差异。以视觉信息沿着腹侧通路的逐级加工过程为例,神经元的结构和性质的变化具体体现在两个方面:第一,感受野作为注意力生理层面的发生场所,其范围不断增大。例如,从V1皮层到TE皮层,视觉感受野的范围分别为0.2度、3度、6度和25度;第二,视觉处理的复杂度和抽象程度不断增加。例如,许多V1区的神经元仅仅起着局部能量响应的作用,而V2区神经元则可以对对象轮廓做出反应,到了颞叶的TEO和TE区,神经元则选择性地对全局或整体对象特征做出感应。图1-12示意了腹侧通路不同层级视觉皮层的感受野范围及其对视觉信息的层级加工模式。

●图1-12 腹侧通路不同层级视觉皮层的感受野范围及其对视觉信息的层级加工模式

我们知道,视觉系统对物体的识别主要发生在腹侧通路。而在腹侧通路中,神经元的感受野随着皮层层级的增加而变大。而感受野越大,意味着神经元在整个视野中“看”的区域越大,也意味着处理的视觉信息就越多。但是同时我们也知道,在视网膜接收到的海量视觉刺激中,我们只选择其中的极小部分进行加工,那么在脑机制层面,我们是怎么过滤掉那些我们不想要的信息的呢?1985年,美国神经科学家杰弗里·莫兰(Jeffrey Moran)和罗伯特·德西蒙(Robert Desimone)在《科学》杂志上发表了其研究成果,对上述问题给出了初步的解释。两位科学家利用单神经元电生理记录(Single-cell Electrophysiological Recording)手段,对恒河猴腹侧通路的V4和TE两个视觉皮层的神经元分别进行电生理观测,探索在不同的视觉刺激下、注意力是如何影响视觉皮层神经元的反应的。实验表明,针对V4皮层神经元,当目标刺激物(effective sensory stimuli,即能够引起注意的刺激物,如图1-13中的香蕉)和分心刺激物(ineffective sensory stimuli,即不能够引起注意的刺激物,如图1-13中的肘子)同时出现在其感受野中,神经元的反应完全取决于是哪个刺激物处在被注意位置:当目标刺激物处在被注意位置时,神经元将会产生明显反应;而当分心刺激物处于被注意位置时,即使目标刺激物仍然处于感受野中,神经元的反应强度将大幅减弱,如图1-13实验A所示。另外,实验还表明,当目标刺激物处于感受野内部,而分心刺激物处于感受野外部时,V4区神经元都能产生较强的反应,而这一现象与注意力的投射位置无关,如图1-13实验B所示。针对TE皮层的测试也表现出类似的现象,神经元的反应都会受到对刺激物注意的影响。但是这种效应与V4区神经元相比弱很多,而且由于TE皮层神经元的感受野更大,甚至覆盖了整个视野区域,神经元几乎不会对分心刺激物产生任何反应,如图1-13实验A所示。莫兰和德西蒙两位科学家的研究结果表明,注意力以类似“门限”的方式,在视觉信息加工中对神经元的反应施加调控,从而实现对非相关视觉信息的逐级过滤。

●图1-13 注意力对V4和TE皮层神经元的刺激影响示意

认知心理学中对选择注意力到底选什么这一问题的讨论,在“神经”层面也仍然在延续着[11]。双通路机制看似已经将视觉处理的脑功能区分得非常清晰——腹侧通路从特征到物体,背侧通路判断位置和运动,可谓“分工明确,各司其职”。自然我们也能够想到基于特征和基于物体的注意应该发生在腹侧通路,而基于空间的注意发生在背侧通路。但是事情远没有这么简单,双通路假设更多的是一种“大概其”的假设,毕竟大脑中神经元的形态异常多样,神经元之间关系也是错综复杂,注意发生的场所和时机也要比想象中复杂得多。例如,一个运动的红色物体,涉及特征、空间和物体三方面要素,我们对它的注意到底发生在腹侧通路还是背侧通路?或者,既然背侧通路中的MT分区被认为是完成位置和运动感知的主要区域,那么在大脑感知运动的红色物体时,MT分区是否也参与了颜色的感知?

在基于特征、空间和物体的三种选择注意力中,物体可以视为是特征、空间位置以及运动等诸多要素的集合,属于最高级的认知对象,故基于物体注意力的机制也被认为是最复杂的。因此在研究的初期,受技术手段和对脑机能认识的限制,人们更多的是围绕基于特征和基于空间的两种注意力机制开展研究。显然,前文介绍的莫兰和德西蒙两位科学家对恒河猴V4和TE两个脑分区开展的研究,就明显体现了注意力的空间选择特性:神经元是否有反应,取决于目标刺激物的出现位置,当其出现在被注意的位置时,神经元反应强烈,否则神经元的反应极为微弱。的确,无论是心理学还是神经科学,多数学者也都持有“选空间”的观点,他们认为在注意力选择的过程中,刺激物出现的位置起着决定性的作用。但是,也有不少学者认为特征在注意力的选择方面也起着非常重要的作用。例如,美国神经科学家莫里齐奥·科尔贝塔(Maurizio Corbetta)率先利用正电子发射断层显像(Positron Emission Tomography, PET)技术对人类注意力的脑机制开展探究实验,并在1990年将研究成果发表在《科学》杂志上。科尔贝塔选择的视觉特征包括形状、颜色和速度三种,研究结论体现在两个方面:第一,当受试者有选择地注意到上述特征中的某一个时,他们在任务中辨别细微刺激变化的敏感性远高于将注意力分散到多个特征上;第二,PET对大脑活动的监测表明,纹状视觉皮层在什么区域产生活跃信号取决于选择注意力关注的特征。例如,当注意速度刺激时,左顶下小叶(left inferior parietal lobule)的一个区域被激活,注意颜色刺激激活了侧副沟(collateral sulcus)和枕叶外侧(dorsolateral occipital)皮质的一些区域,而注意形状刺激激活了侧副沟某些区域等。而在视觉系统之外,注意力在聚集和分散时,也激活了不同的脑区域。科尔贝塔研究表明,对不同特征的选择性注意调节了视觉皮层不同区域的活动,即在某种程度上可以认为这些脑区域专门针对不同“特征”进行加工。在选择性注意和分散注意条件下,视觉系统之外大脑区域产生的不相交激活现象,也表明认知过程涉及不同的神经系统参与,这取决于注意力的使用模式。图1-14所示为对于形状、颜色和速度三种特征产生激活现象的脑区域。

同样,除了“选空间”和“选特征”,很多认知神经科学家也持有“选对象”的观点,他们认为引起注意的是某个完整的“东西”本身,不像“空间派”那样认为引起注意是因为目标物出现在某一位置,也不像“特征派”那样认为引起注意的是某个或某几个视觉特征。例如,麻省理工学院的凯瑟琳·奥克雷文(Kathleen M. O'Craven)等科学家于1999年在《自然》杂志上发表文章,公布其利用功能磁共振成像技术对注意力选择的研究成果,他们找到了注意力在进行选择时以对象作为选择基本单位的证据。奥克雷文等在其研究中首先提出两个问题:第一,是否如基于空间注意力的观点那样,在注意力投射的位置,所有视觉特征的处理都会得到增强?第二,是否如同基于对象注意力观点那样,对某对象一个视觉特征的注意会自动引发对该对象其他不相关视觉特征的同时处理?事实上,如果能够对上述两个问题做出否定和肯定的答复,就能够得到注意力选择是基于对象进行的这一重要结论。在研究中,几位科学家将半透明的人脸图像与半透明的房屋图像相互叠加,并在两者间人为制造相对运动,以此作为受试者的视觉刺激物。与此同时,利用fMRI设备监测受试者大脑梭状回面孔区(Fusiform Face Area, FFA)、海马旁位置区(Parahippocampal Place Area, PPA),以及颞叶MT/MST(MST是“内侧颞叶上部”英文“Medial Superior Temporal”首字母简写,该区处于背侧通路,与MT区相邻)三个脑区域的脑活动强度。之所以将图像叠加是为了保证不同对象和特征出现在相同的空间区域,从而控制空间位置对注意力选择的影响。而之所以选择上述三个脑区域开展监测,正是因为早先神经科学的研究已经证明FFA、PPA和MT/MST三个区域在视觉认知过程中,分别扮演人脸识别、场景分辨和运动感知的三类认知功能。研究表明,当受试者在注意某一对象的某一特征时,大脑在增强对该特征处理的同时,也会增强对与该对象相关所有其他特征的处理,而对与之不相关的对象特征的处理将被减弱。例如,当受试者注意到人脸图像发生运动时,负责运动感知的MT/MST区和负责人脸识别的FFA区的fMRI信号同时增强,且其强度要远远高于负责场景分辨(在实验中即为房屋分辨)的PPA区的信号强度。这就意味着引起受试者注意的不是纯粹的人脸也不是纯粹的运动,而是“运动的人脸”,当然也更不是处于相同位置的房屋。上述现象很难用基于空间或者基于特征的注意力理论来解释:房屋与人脸都出现在相同的区域,但是受到的关注却天壤之别,这与“空间派”的“只要入圈即被关注”的观点截然相悖;受试者只注意运动,但是对人脸的注意也同时发生,这又与“特征派”的“特征能够单选”的观点大相径庭。因此奥克雷文等几位科学家认为注意力的选择是以对象为基本单位的。

●图1-14 对于形状、颜色和速度三种特征产生激活现象的脑区域

认知心理学中,注意力分配认知理论将注意力视为一种资源,当有多个任务共同使用注意力资源时,有可能会出现资源抢占的问题。神经科学家在研究中发现,“竞争”在神经元层面也同样存在——注意力决定了谁能够在信息处理过程中得到优先加工。1995年,德西蒙和剑桥大学的约翰·邓肯(John Duncan)两位神经科学专家在认知实验中观察受试者视觉响应时,首先发现了两个有趣的现象:第一,认知资源是有限的,这就意味着并不是视觉场景中所有的对象都能够实现同时处理;第二,在处理特定对象时,可以过滤掉场景中不重要的信息,即视觉认知表现选择特性。在此基础上提出著名的注意力偏向竞争理论(Biased Competition Theory),从脑机制层面对注意力的资源抢占问题做出了进一步阐述:在视觉系统面对超过自身加工能力的大量对象时,由于注意力的资源有限,不同对象之间就会产生竞争注意力资源的现象,这些对象相互“踩踏”,都试图获得更高水平的视觉加工机会,最终,在注意力的选择下“杀出重围”的获胜者将得以控制知觉和行为反应。之所以会出现资源竞争的局面,正是与大脑不同层级视觉皮层感受野的作用机制有着直接关系。而这些感受野可以被视为一种重要的注意力资源,感受野中的对象之间必然产生竞争。也正是由于视觉感受野受到加工能力和范围的限制,才需要注意力在感受野中做出选择并优先处理。

人类的注意力总是包括“自下而上”(Bottom-Up)和“自上而下”(Top-Down)两个方面的机制。其中,自下而上的注意力是指认知对象本身就具有足够的显著性,能够引起人的注意,如茫茫黑夜中的一点亮光就能够瞬间吸引目光;自上而下的注意力是指人们调用记忆等已有的认知体系,对关心的对象投射更多的关注,从而进一步完成辨别工作,如茫茫黑夜中的一盏灯——此时,亮光已经得到进一步分辨,之所以能够识别那是灯,原因是在人的记忆中已经存在灯的形象和概念。关于自下而上和自上而下的注意力的讨论可谓由来已久,从17世纪笛卡儿对“自愿”和“非自愿”注意力的朴素表达,到19世纪詹姆斯对“主动”和“非主动”注意力的阐述[12],再到20世纪特里斯曼认知指引下注意力对外界信息带有衰减的筛选,无不体现注意力的自下而上和自上而下特性。在认知神经科学领域,科学家们则更进一步从脑机制层面对注意力的自下而上和自上而下机制给出了解释。德西蒙和邓肯在其偏向竞争理论中认为,视觉信息沿着自下而上的通路进行逐级加工,但是,加工的过程中存在偏向性——只有那些从未出现过的视觉刺激,或是最近一段时间未出现过的视觉刺激,才会在视觉皮层中产生较大的神经信号,使它们在控制注意力方面具有竞争优势。那么怎么判断“从未出现过”和“最近一段时间未出现过”?显然,这就需要动用工作记忆机制对当前输入刺激进行匹配,确定其“新旧”属性,从而进一步决定到底哪些输入信号需要“重点关照”。这种动用工作记忆帮助那些特定输入获得更多注意力偏向,使其能够在竞争中占优的机制,即偏向竞争理论中自上而下的注意力机制。1999年,麻省理工学院认知神经科学教授厄尔·米勒(Earl K. Miller,1962年至今)在其发表在《自然》杂志的文章中也提出了类似的观点。米勒认为认知和思想正是大脑中自下而上和自上而下注意力机制相互作用的结果,而自上而下注意力机制对认知起到尤为关键的作用:视觉信息沿着位于下颞叶的腹侧通路得到逐级加工,在该过程中,自下而上的注意力按照图像特征构建“显著性图”(Sa-liency Map,等同于前文提到的注意力分配图);同时,前额叶皮层不断将记忆信号传送到上述加工流程,此时自上而下的注意力依据记忆不断对认知过程增加有倾向性的调控。随着视觉信息加工层级的提升,认知在自下而上和自上而下双重注意力的加持下变得越来越丰满而鲜活。例如,在图1-15所示的简笔画中,我们可以一眼就注意到其中的大熊猫,即使它被竹子严重遮挡,而且它脸部和腹部的外轮廓也未画出。但是这丝毫不影响我们对它的识别,我们可以轻易忽略掉竹子的干扰,并且能够“脑补”出那些缺失的笔画,最终做出正确的判断。这正是因为我们在自下而上注意力帮助下加工图像特征的同时,还在利用自上而下注意力调用我们对大熊猫的已有认知进行调控,正所谓“双管齐下”。

●图1-15 对象识别是自下而上(彩色箭头)和自上而下(灰色箭头)注意力双重作用的结果

作为认知心理学在脑与神经层面的延伸,认知神经科学以神经科学为基础,借助脑科学的理论成果和各类先进的仪器设备,深入大脑一探究竟,不断发现注意力的生理学本质。

然而,大脑作为信息处理中心,拥有数量惊人、功能繁多、关系复杂的神经元,大脑结构具有高度的完备性和复杂性,精密程度也可谓无与伦比。另外,人类的认知过程是一个需要神经系统诸多环节和模块共同参与才能完成的复杂过程。目前,人们对大脑功能、结构以及认知过程生理学基础的研究刚刚起步、知之甚少,前方一片星辰大海。因此在认知科学领域,对注意力探索从未停止,还在不断深入。