更新时间:2024-06-06 18:44:48
封面
版权信息
作者简介
前言
第1章 人类注意力与计算机注意力——从认识自我到改造世界
1.1 本源思考:哲学中的注意力
1.1.1 早期哲学的朴素观点
1.1.2 注意力视为一般认知现象
1.1.3 注意力作为重要研究对象
1.2 心路历程:心理学中的注意力
1.2.1 实验心理学中的注意力
1.2.2 认知心理学中的注意力
1.3 深入脑海:认知神经科学中的注意力
1.3.1 认知神经科学的研究基础和方法
1.3.2 认知神经科学中的注意力研究
1.4 改造世界:计算机科学中的注意力
1.4.1 人工智能为什么要讨论注意力?
1.4.2 注意力与计算机视觉
1.4.3 注意力与自然语言处理
1.4.4 注意力机制的多模态应用
参考文献
第2章 计算机视觉中的注意力
2.1 注意力模型的分类
2.1.1 客观与主观:自下而上的注意力与自上而下的注意力
2.1.2 目的与手段:视觉显著性检测与视觉注意力机制
2.1.3 掩膜与权重:硬性注意力与柔性注意力
2.1.4 特征与位置:特征域注意力与空间域注意力
2.1.5 自己与相互:自注意力与互注意力
2.2 视觉显著性检测原理与模型剖析
2.2.1 注视点预测
2.2.2 显著物体检测
2.3 注意力机制的计算机视觉应用与模型剖析
2.3.1 目标搜索与识别
2.3.2 细粒度分类
2.3.3 神经网络中的通用注意力模块
第3章 自然语言处理中的注意力——“前Transformer”的时代
3.1 机器翻译与Seq2Seq模型
3.1.1 机器翻译
3.1.2 Seq2Seq模型
3.2 自然语言处理中注意力机制的起源
3.2.1 Seq2Seq模型的问题
3.2.2 注意力Seq2Seq模型
3.3 经典算法剖析
3.3.1 全局注意力与局部注意力机制
3.3.2 层级注意力机制
3.3.3 自注意力机制
3.4 注意力机制的形式化表示
第4章 “只要注意力”的Transformer
4.1 Transformer的诞生
4.2 Transformer的编码器-解码器架构
4.2.1 编码器结构
4.2.2 解码器结构
4.3 Transformer的输入与输出
4.3.1 词嵌入
4.3.2 位置编码
4.3.3 Transformer的输出
4.4 Transformer的注意力机制
4.4.1 缩放点积注意力
4.4.2 多头注意力
4.4.3 编码器与解码器中的注意力模块
4.5 一些其他问题
4.5.1 BatchNorm与LayerNorm
4.5.2 模型训练的Teacher Forcing模式
4.5.3 序列预测的Beam Search方法
第5章 自然语言处理中的预训练范式与Transformer的“一统江湖”
5.1 语言建模
5.1.1 从统计语言模型到神经网络语言模型
5.1.2 单向语言模型与双向语言模型
5.1.3 自回归语言模型与自编码语言模型
5.2 自然语言处理中的预训练范式
5.2.1 “预训练+微调”范式
5.2.2 “预训练+提示”范式
5.3 预训练模型概览
5.4 基于Transformer的预训练模型
5.4.1 GPT:Transformer的“右手”
5.4.2 BERT:Transformer的“左手”
5.4.3 Transformer-XL与XLNet:从任意长输入到“更好的BERT”
5.4.4 RoBERTa与ALBERT:“鲁棒版BERT”与“瘦身版BERT”
5.4.5 MASS、BART与UniLM:序列到序列的模型
5.4.6 ERNIE“双雄”:借助外部数据的增强模型
5.4.7 XLM:跨语种预训练语言模型
5.4.8 GPT-2.0与GPT-3.0:超级模型
第6章 计算机视觉中的Transformer
6.1 视觉Transformer模型概览
6.2 卷积还是注意力?
6.3 Transformer的计算机视觉应用与算法剖析
6.3.1 图像分类与通用主干网络
6.3.2 目标检测
6.3.3 图像分割
6.3.4 自监督预训练模型
第7章 多模态机器学习中的注意力机制
7.1 多模态技术发展史
7.2 多模态机器学习面临的挑战
7.3 视觉语言多模态模型
7.3.1 视觉语言任务简介