智能RPA实战
上QQ阅读APP看书,第一时间看更新

2.6 人工智能组件

1.人工智能组件功能

企业级RPA的人工智能组件(AI Component)主要用于提供以图像处理、文本识别、语义分析等为核心的人工智能技术,赋予RPA智能化数字员工更强大的业务技能和场景延展性。如果将传统的RPA产品比喻成人的双手,因为它能够替代人工处理一些简单的、规律性的事务,那么融合了人工智能技术的RPA产品则相当于是拥有了人的眼睛和大脑,这就使得RPA软件机器人能够处理的场景和能力得到了大大的提升。人工智能组件不仅能够帮助用户解决代填、数据迁移之类的业务,还能够通过图像处理、文本识别提供的“眼睛”的能力和语义分析提供的“大脑”的能力处理大量的纸质文档,以及对文档进行分析和研判。

2.智能图像处理组件

传统RPA的元素捕获功能需要依靠系统或软件提供的接口,对目标元素进行识别或定位,通过消息传递机制或键盘和鼠标操作完成一系列的操控动作。但元素捕获能力的强弱在很大程度上取决于开发的接口,很多第三方的软件或者非标准化的元素常常会无法捕获。

企业级智能RPA创新性地将计算机视觉技术与传统元素捕获功能相结合,以便更好地支持非标准化元素的定位与获取。计算机视觉是一项帮助计算机、软件、机器人或其他设备获取、分析及处理图片的技术。智能RPA利用计算机视觉的模板匹配技术识别并定位目标元素,然后使用键盘和鼠标进行控制。模板匹配技术需要两幅图像:一幅是原图像,在其中寻找与模板匹配的区域;一幅是模板,是用来与原图像进行比照的图像块。在检测最匹配区域的过程中,模板在原图像上进行滑动比较,即图像块一次移动一个像素(从左往右,从上往下)。每个位置都进行一次匹配度或相似度的计算,最终找到模板与原图像最匹配的位置。

通过创新性地整合计算机视觉技术,企业级智能RPA可以完全捕获国产办公软件WPS、国产数据库、Chrome、IE、Firefox、App、Email、Office、ERP、SAP、Citrix等各类应用程序界面的非标准元素,完全避免了RPA在实施过程中部分非标准元素无法定位和捕获的尴尬局面,极大地拓展了RPA的能力边界。

3.智能文本识别组件

在许多行业的业务场景中都存在着将大量的影音文件、纸质文件的数据录入电子系统的工作,传统RPA一般无法直接处理扫描件等影印类型的数据资料。智能RPA能够与基于光学字符识别(Optical Character Recognition,OCR)的智能文本识别技术相结合,实现对身份证、发票、房产证、火车票、营业执照等扫描件的高精度识别(如图2-15、图2-16所示)。光学字符识别是指利用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字的过程。OCR技术具体来说就是,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工。通过OCR技术,可以自动识别护照等证件上的信息,从而能够省去大量的人工录入工作。

图2-15 验证码等文件智能识别校验

图2-16 发票智能识别校验

智能文本识别组件能够实现高难度的文本识别,除基础证件、证明、常用报表之外,其还可以处理无边框表格,对于手写体识别也可以达到较高的准确率。智能文本识别组件使用了基于CTPN等先进算法的文本检测网络,能有效地区分文本与模糊图片,可以方便地处理各行各业的汇总文档与报表,同时还可以便捷地处理爬虫数据。当组件使用基于Mask-RCNN和Unet的表格检测算法时,可以通过大量的图像处理算法构建无边框表格的表格线,区分文本与表格的内容,有效解决无边框表格处理这个业界难题。

智能文本识别组件使用基于CRNN等算法的文本识别网络,能够大幅度提升识别的准确率。除传统类别的文本之外,该组件对污损印章、模糊手写与混合验证码的识别也能取得良好的效果。该组件支持全新类别的文档定制化开发,如建筑图纸等类别。智能图像处理组件除SaaS部署方式之外,还支持私有化部署,具体采用哪种部署方式可依据客户的需求灵活调节。

4.智能语义分析组件

经过OCR技术识别之后,智能RPA平台可以将照片等图片信息转化为电子信息,但是对于其中的关键信息还是没有办法处理,因此需要进一步使用NLP技术。NLP技术可用于对文档的各个维度进行分析,自动提取出文档中的关键内容,比如,从劳动合同中找到就业信息、岗位内容等相关的材料,同时完成相关内容的自动填写。智能语义分析组件基于NLP技术,结合深度学习、多模型融合、图像处理等AI技术可以实现对文档的深入理解和分析,从而最大限度地提高企业的工作效率、降低监控风险。

智能语义分析组件基于海量文本语料库、审核规则、外界知识库(法规库),由浅入深地全面审阅文档,以实现不同业务场景及其中任何文档类型的审阅工作,如采购类合同、银行业零售贷款合同、民事判决、债券募集说明书等(如图2-17所示)。智能组件使用Docker技术,部署轻便、扩容方便,能快速完成平台的搭建;系统既可独立部署,也可以通过API调用的方式直接对接现有系统的业务,从而在最大程度上减少用户在不同系统间的学习成本和障碍。智能语义分析组件能够实现文本分类、文本审核、文本摘要、标签提取、观点提取和情感分析等文档智能分析功能,针对不同的行业需求提供易用的自动化控件操作及API,支持更加丰富的使用场景。

图2-17 智能RPA实现文本(财务报表、审计报告、招股说明书等)的智能抽取

由于各行业的业务场景都很复杂,企业在实现业务流程自动化升级的过程中需要面临诸多挑战,因此企业对RPA也提出了更高的要求。企业级智能RPA通过安全稳定、高可用的平台架构,完善易用的系统功能,实现了对企业结构化数据场景问题的高效处理。企业级智能RPA在深度融合人工智能技术之后,拓宽了机器人的非结构化数据处理场景,使得智能RPA软件机器人在企业自动化升级过程中能够发挥越来越重要的作用。