1.2.3 深度学习为多个应用技术领域带来突破
深度学习在语音和图像任务上的突破性进展,极大地吸引了学术界和工业界对深度学习领域的关注,之后的几年,深度学习从算法模型研发、编程框架建设到底层训练加速、上层应用拓展,都发展得如火如荼,在更广泛的领域取得了新的突破。以深度学习为主的人工智能技术已经在语音识别、自然语言处理、计算机视觉等多个领域得到了落地应用,语音助手、生物特征识别、智能翻译、智能推荐等应用已广泛用于智能手机、智能音箱、智能机器人、智能家居等设备,方便了人们的生活,提升了这些产品的智能程度和用户的使用体验。
在语音识别领域,在深度学习技术的驱动下,语音识别准确率不断提升,在安静场景下已经达到甚至超越了人类的识别水平。2016年以来,百度、搜狗、科大讯飞分别宣布自己的中文语音识别准确率达到了97%甚至98%的水平。2017年5月,Google宣布自己的英文语音识别准确率达到95%,与人类水平相当。随着研究的深入,语音识别正在从状态建模和按语音帧解码等传统技术框架向语音文本一体化的端到端建模发展。
相对于传统机器学习方法,深度学习在图像识别领域具有非常明显的优势,在图像分类与目标定位、目标检测、视频目标检测、场景分类等图像应用领域都获得了很好的效果,算法的准确率不断提高。当前各种基于深度学习的图像识别产品纷纷落地,并广泛应用于自动驾驶、安防、教育等多个领域。
在自然语言处理领域,基于深度学习的神经网络机器翻译(Neural Machine Translation, NMT)是近几年深度学习在自然语言处理领域最显著的突破,NMT显著超越了统计机器翻译系统的效果并且系统更加简洁,推动了机器翻译走向实用化,翻译机等产品开始出现。此外,阅读理解等新的技术也在深度学习的带动下发展起来。Google AI团队于2018年10月发布的BERT(Bidirectional Encoder Representation from Transformer)预训练模型在机器阅读理解顶级水平测试SQuAD1.1中取得惊人的成绩:在两个衡量指标上均超越人类,并且在11种不同NLP测试中取得最佳成绩。BERT模型在OpenAI的GPT的基础上对预训练目标进行了进一步的改进,可通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子,预训练的B E RT表征可以仅用一个额外的输出层进行微调,在不对任务特定架构做出大量修改的情况下,就可以为很多任务创建当前最优模型。在未来几年,预计自然语言处理依然能产生巨大影响。
在数据智能领域,近年来,深度学习模型的理论和实践进步飞速,GPU等各类深度学习处理器的快速升级为之提供了算力保障,有力推动了大数据的应用。国内AI龙头企业利用大数据技术建设智慧城市,涉及金融、法律、交通、出行、安防等关乎国计民生的关键领域。在企业经营活动中,深度学习显著提升了基于大数据的搜索、广告、用户画像等应用。