更新时间:2024-04-25 18:29:23
封面
版权信息
内容简介
作者简介
前言
第一部分 内容理解
第1章 文本内容理解
1.1 文本表示
1.1.1 文本表示的研究背景
1.1.2 文本表示的方法
1.2 文本分类
1.2.1 文本分类的研究背景
1.2.2 文本分类的方法
1.3 本章小结
第2章 图像理解
2.1 图像分类
2.1.1 传统图像分类算法
2.1.2 深度学习图像分类算法
2.2 图像检测
2.2.1 图像匹配算法
2.2.2 基于OpenCV的模板匹配实现
2.2.3 目标检测算法
2.3 实际应用:通用元素检测框架
2.4 本章小结
第3章 语音理解
3.1 语音表征
3.1.1 基于传统方法的语音表征
3.1.2 基于深度学习的语音表征
3.2 基于深度学习的音乐分类
3.2.1 基于CNN的音乐分类
3.2.2 基于RNN的音乐分类
3.2.3 基于领域知识的CNN
3.2.4 基于注意力机制的后端模块算法
3.3 本章小结
第4章 场景文字检测与识别
4.1 场景文字的研究方向
4.1.1 研究问题
4.1.2 研究难点
4.1.3 未来趋势
4.2 场景文本算法的现状
4.2.1 基于传统机器学习的文本检测
4.2.2 基于传统机器学习的文本识别
4.2.3 基于深度学习的文本检测
4.2.4 基于深度学习的文本识别
4.2.5 基于深度学习的端到端系统
4.3 场景文本算法辅助技术
4.3.1 不规则文本识别问题
4.3.2 文本图像合成技术
4.3.3 半监督技术
4.4 数据集和评估标准
4.4.1 基准数据集
4.4.2 文本检测评估标准
4.4.3 文本识别评估标准
4.5 文本检测和识别的应用、现状与未来
4.5.1 应用
4.5.2 现状
4.5.3 挑战与未来趋势
4.6 本章小结
第5章 视频理解
5.1 视频表征
5.1.1 研究目标与意义
5.1.2 研究进展
5.2 视频动作识别
5.2.1 研究目标与意义
5.2.2 研究难点
5.2.3 研究进展
5.3 视频时序动作定位
5.3.1 研究目标与意义
5.3.2 研究难点
5.3.3 研究进展
5.4 视频结构化分析
5.4.1 研究目标与意义
5.4.2 研究难点
5.4.3 基于视频结构化的数据集
5.4.4 视频结构的划分方法
5.4.5 研究进展
5.5 本章小结
第6章 多模态学习与内容理解
6.1 多模态内容理解的研究方向
6.1.1 研究问题
6.1.2 研究意义与挑战
6.1.3 研究方向与应用
6.2 多模态表征
6.2.1 因果表征
6.2.2 联合表征
6.3 多模态内容理解框架
6.3.1 模态间推理
6.3.2 模态间协同
6.3.3 模态间推理:零样本图像分类
6.3.4 模态间协同:虚假新闻识别
6.4 大规模预训练技术
6.4.1 文本预训练
6.4.2 图像预训练
6.4.3 音频预训练
6.4.4 多模态预训练
6.5 本章小结
第7章 内容理解框架
7.1 常见的内容理解框架
7.1.1 Tensor2Tensor
7.1.2 OmniNet