1.4 视觉感知原理
1.4.1 计算机视觉驱动的行为感知基础
对于一个视觉感官无缺陷的生物来说,从外界获取的信息(如物体的色泽、明暗、大小、动静等)约有83%来自视觉。因此,人工智能技术的发展需要解决的一个科学问题:怎样使机器像拥有人类的眼睛一样学会视觉感知?计算机视觉技术为解决这一问题应运而生——通过对采集的图像或视频进行处理,代替人眼对目标进行识别、跟踪或测量等。目前,计算机视觉技术取得了很大进展,具有许多重要的实际应用。例如,在教育领域,随着教育信息化的贯彻落实,计算机视觉不断被引入以提升教学效果;在自动驾驶方面致力于开发出车辆的自主导航系统,实现像人那样能识别和理解任何环境,避免发生碰撞;在医疗领域,通过计算机视觉技术对X射线图像、超声图像等类型的图像进行分析,检测肿瘤、动脉粥样硬化或其他恶性变化。
基于深度学习的计算机视觉借助神经网络模型从大量数据中学习有用信息,从而具备感知能力。计算机视觉系统的具体结构形式和模型实现方法在很大程度上依赖于特定应用方向,但有些功能几乎是每个视觉系统都需要具备的,如图像获取、图像预处理、特征提取等步骤。首先,数据是模型学习的参照,没有数据,就无法训练出一个具有感知能力的计算机视觉系统(实际是对网络模型的训练)。图像数据可以由摄像机直接采集,也可以由爬虫技术进行收集。在使用具体的计算机视觉方法对图像提取某种特定的信息前,往往需要一些预处理操作使图像满足一定的要求以便于后续的处理,如调整尺度空间使图像结构适合局部应用,提高对比度以保证实现相关信息能够被检测到,平滑去噪来滤除感知器引入的设备噪声;有时还需要对图像进行检测分割以裁切出最有价值的部分。然后,即可利用所设计的网络模型从图像中提取各种复杂特征,如边缘提取、斑点检测和纹理形状。最后,根据任务的不同,计算机视觉系统将反馈出不同的高级语义信息,实现对图像内容的理解。
目前,计算机视觉系统在许多方面都得到了发展,下面将进行一些简单的介绍。图像分类、图像分割和显著性目标检测是当前视觉领域的三大视觉任务。图像分类是将图像划分为单个类别,通常对应于图像中最突出的物体。然而,一幅图像通常包含不仅一个物体,此时如果使用图像分类模型为图像分配一个单一标签则使结果不够精确。对于这样的情况,应执行目标检测模型,它可以定位并识别一幅图像中的多个物体。图像分割是对图像的像素级描述,它赋予每个像素实际意义,适用于理解要求较高的场景。除此之外,还有许多其他计算机视觉任务。图像标注的研究目的是根据给定的一幅图像产生对其的一段文字描述。与此对应的将文字转换成图像的任务被称为图像生成。行为识别任务是指在给定的视频帧内进行动作分类。人体姿态估计作为一项回归任务,其目标是预测得到人体的骨骼点坐标。表情识别任务对输入的人脸图像预测得到其表情类别。超分辨率指的是将低分辨率图像恢复为高分辨率图像的过程,基于深度学习的超分辨率通过提取特征建立高低分辨率图像之间的映射关系进行图像重建。显著性目标检测是将一幅图像中最接近于人眼关注的范围突出或者比较重要的目标区域标注出来以便后续利用,它与分割等任务联系紧密。行人重识别用来判断图像或者视频序列中是否存在特定行人,主要解决跨摄像头、跨场景下行人的识别与检索。总的来说,计算机视觉任务的应用在不断扩展,头部姿态、手势姿态、人脸识别、指纹识别、人群计数、三维视觉重建等任务都得到了很大的发展,在此不再一一列举。
1.4.2 课堂学习行为的理解与认知
在智能教育领域,计算机视觉主要应用在学习情境感知、学习行为分析和学生情绪识别等方面。充分发挥计算机视觉在学习过程感知和建模中的核心作用,可以实现对学习过程的有效还原和学习规律的科学解释。为达到这一目的,学生表情识别、姿态估计(包括手部姿态、头部姿态、身体姿态)、视线估计等视觉任务已逐渐应用在教育领域。
在真实的课堂场景下,学生的面部表情是最直接的情感表露方式,能够间接地反映学生当前的学习状态;与此同时,认真听讲与走神的学生的身体姿态也有较大差别,因此可以据此分析学生的专注程度。此外,当教师在讲课时,是否正对向黑板的头部姿态可间接反映学生的学习兴趣。因此,通过对学生表情、姿态等外显行为数据的分析,可精准识别学生的情绪状态,以此进一步分析学生的学习兴趣、学习投入度、学习风格等特征,从而为学生提供个性化的学习支持服务。利用计算机视觉技术,教师能够更加高效地了解学生学习情况,及时改进教学策略、因材施教。
1.4.3 课堂学习行为的智能评测
对学生的课堂学习行为感知除了通过教师观察,还结合利用计算机视觉技术得到的各方面信息,可以更全面、高效地反映学生的课堂学习状态,通过将分析结果可视化地展现在教师面前,教师就能够更有针对性地对学生进行帮助,使学生及时掌握自己所学到的知识;与此同时,教师通过对学生掌握程度的了解,可及时调整教学方案,逐渐完善自己的授课方式,并帮助学生制订合适的学习计划。教育信息化不仅对教师和学生有利,还可以通过将多阶段的学生学习效果反馈给学生的家长,使家长更加积极地参与到教育中,以家校联合的方式帮助学生取得进步,让教育更加完善。
此外,计算机视觉技术在教育领域的应用将有利于教学评价改革向过程性评价的转变。传统的课堂教学评价方法为教师人工观察记录,且通常仅依靠最后的考试结果进行评判,这种方法不仅分散了教师授课的注意力,而且评价结果往往不准确且不全面。得益于计算机数据处理速率和监控设备清晰度的提升,教师能够准确、高效地采用计算机技术对学生课堂学习的监控视频进行分析,对这种过程性记录的分析能够更加全面地获取学生学习情况,并对学生进行评价,使教师摆脱一些机械烦琐的工作,更加专注于教书育人。因此,在课堂场景下的跟踪评价将有利于学生学习规律的挖掘,持续促进教学相长。