第二节 数字化审计循环
从数字化审计的两大基本任务可以看出,数字化审计不是辆“单程车”,而是以目标为导向的“理论—实践—理论”的循环,且是一个不断迭代、能力呈现螺旋式上升的循环。
从公司经营管理的层面看,数字化审计是数字化应用于商业决策的一个子集,总体而言也需要遵循数据分析挖掘的基本规则和路径。在此前提下,数字化审计结合内部审计工作的特点,形成了特有的数字化审计循环。
一、CRISP-DM:跨行业数据挖掘标准流程
数据分析挖掘业界比较通用的流程是CRISP-DM,CRISP-DM是Cross-Industry Standard Process for Data Mining的缩写,即“跨行业数据挖掘标准流程”。该流程是由SPSS、NCR等公司牵头发起的一个跨行业的通用流程,不仅供技术人员、数据科学家使用,也适合不同行业的数据分析人员在分析挖掘数据时应用。
严格说来,CRISP-DM是一种知识发现(Knowledge Discovery in Database,KDD)过程模型,在KDD过程模型中占领先位置。经典的CRISP-DM模型也是数据分析的通用流程,主要包括以下内容。
(一)业务理解
业务理解(Business Understanding)阶段主要是确定数据分析挖掘项目的目标和结果评价标准,评估项目可行性,分析可用的资源、约束条件等,提出项目推进计划。
(二)数据理解
数据理解(Data Understanding)阶段主要根据项目的目标进行数据收集,进行探索性分析,描述数据,评估数据质量。探索数据中的子集,根据对数据的洞察,形成对隐性信息的假设。
(三)数据准备
数据分析行业有句经典的话:“垃圾进,垃圾出”(Garbage in, garbage out)。数据准备(Data Preparation)阶段就是要在理解和熟悉数据的基础上,使用适当的工具对原始数据进行清洗、多源融合、格式化、变换等操作,选择合适的数据维度,为模型提供原料。
(四)建模
根据已有的数据,选择合适的建模(Modeling)技术和工具,并对同一问题可应用的多种建模技术进行探索和比较,模型应简单、可靠、可解释性高。在这一阶段,可能需要根据模型的构建和优化修正数据。
(五)评估
根据对业务的理解和项目目标的要求,对模型进行评估(Evaluation),确认业务和模型的结合是否能清楚进行解释、是否存在重大遗漏。在评估过程中,应关注模型运行的前提、边界等,以及是否存在风险。在评估的基础上,平衡成本、风险和收益,最终决定是否部署模型。
(六)部署
开发模型的目的不仅是洞察数据、获得知识和见解,更重要的是要将获得的知识和见解以客户能够使用的方式展示出来。需要将模型嵌入业务决策或者风险管理流程中,并形成相应的结果报告。这个环节就是部署(Deployment)环节。
在CRISP-DM中,始终以基于业务理解的业务目标为导向,六个阶段循环,不断迭代,以无限接近或达到目标,如图2-3所示。
图2-3 CRISP-DM循环
资料来源:SPSS CRISP-DM 1.0。
二、数字化审计循环
基于CRISP-DM,结合内部审计的特点,形成数字化审计循环:形成思路—数据准备—分析挖掘—核实查证—总结提炼—完善思路。该循环是一个闭环,如图2-4所示。
图2-4 数字化审计循环
(一)形成思路
整个数字化审计循环始于思路,这里的思路是广义上的思路,包括管理判断、审计经验、风险规则、监测阈值、数理模型、挖掘算法等。
(二)数据准备
有了思路后,根据不同思路对数据的要求,确定内外部数据源,进行数据申请、采集、融合和清洗,构建中间表。
(三)分析挖掘
根据思路,对数据进行分析挖掘,并在此过程中不断优化思路,形成问题清单或者列出需要现场查证的疑点。
(四)核实查证
对于问题清单或疑点,通过现场和非现场方式进行核实查证。在核实查证过程中,根据区域差异、审计对象反馈等进行扩展和延伸。
(五)总结提炼、完善思路
根据查证的情况进行扩展并进行总结提炼,根据问题查证情况和核实过程中发现的新因素,对原有的思路进行修正或形成新的思路。如此不断进行循环和迭代。