上QQ阅读APP看书，第一时间看更新

推荐序

文字识别（OCR）是视觉感知中一个重要的技术，目的是从照片中提取文字信息。这项技术有着广泛的应用前景。比如，自动驾驶汽车路标识别，或把扫描文档转化成结构化的文字信息以方便检索。近几年来，随着深度学习等技术的发展，文字识别相关技术取得了突破性进展，特别是场景文字的检测、识别和结构化技术。这些技术的发展使得文字识别在工业界受到了广泛关注。阿里巴巴、腾讯、百度、谷歌、微软等互联网公司都有大规模的文字识别应用，提供了各式各样的文字识别相关的服务。

本书系统地介绍了文字识别的各类方法，内容翔实，包括图像预处理、数据生成与增强、文字检测、文字识别以及后处理和结构化等，这些方法是文字识别的基础。同时，本书还介绍了学习这些方法所必需的一些基础，比如，残差神经网络以及通用目标检测技术。另外，本书详细地介绍了这些方法具体的代码实现，供读者学习和使用。目前，关于文字识别的专业书籍还比较缺乏，本书将给广大文字识别研究人员和应用人员带来便利。

本书的作者在文字识别学术研究和产业应用方面有丰富的经验，书中很好地融合了学术理论和产业化实践。相信本书的出版对于文字识别技术的普及和发展会产生积极的作用。

——FCOS, CTPN模型作者，田植