上QQ阅读APP看书,第一时间看更新
推荐序
文字识别(OCR)是视觉感知中一个重要的技术,目的是从照片中提取文字信息。这项技术有着广泛的应用前景。比如,自动驾驶汽车路标识别,或把扫描文档转化成结构化的文字信息以方便检索。近几年来,随着深度学习等技术的发展,文字识别相关技术取得了突破性进展,特别是场景文字的检测、识别和结构化技术。这些技术的发展使得文字识别在工业界受到了广泛关注。阿里巴巴、腾讯、百度、谷歌、微软等互联网公司都有大规模的文字识别应用,提供了各式各样的文字识别相关的服务。
本书系统地介绍了文字识别的各类方法,内容翔实,包括图像预处理、数据生成与增强、文字检测、文字识别以及后处理和结构化等,这些方法是文字识别的基础。同时,本书还介绍了学习这些方法所必需的一些基础,比如,残差神经网络以及通用目标检测技术。另外,本书详细地介绍了这些方法具体的代码实现,供读者学习和使用。目前,关于文字识别的专业书籍还比较缺乏,本书将给广大文字识别研究人员和应用人员带来便利。
本书的作者在文字识别学术研究和产业应用方面有丰富的经验,书中很好地融合了学术理论和产业化实践。相信本书的出版对于文字识别技术的普及和发展会产生积极的作用。
——FCOS, CTPN模型作者,田植