关键词:
离群点检测
大数据分析
预算执行审计
数据挖掘
时间序列
摘要:
现阶段,预算执行审计工作中对海量电子数据的大数据审计方式主要依托大数据审计平台和数据库技术,审计人员将审计思路转换为SQL查询语句,从而构建审计模型并对数据进行检测以筛选审计疑点,然而,所谓的审计模型是基于审计人员的业务知识与审计经验构建的,这些审计模型对审计任务的有效性和效率都有许多缺点。近几年,一些学者逐步深入研究了大数据审计策略、大数据审计系统设计、大数据技术应用框架等关键问题。同时,各种大数据分析技术也在审计工作中得到广泛应用,尽管如此,能运用于审计场景的大数据分析技术仍然相对有限,各种审计任务的审计标准、数据建模、大数据分析手段还存在许多技术问题。一方面,审计标准的不确定性限制了大数据技术在审计中的应用,如何有效地建模和分析复杂的数据集,以及如何从大量的数据中提取对审计有价值的信息,仍需要进一步探索和解决。另一方面,数据驱动的分析方法对审计质量的提升起到一定的支撑作用,然而,很少有研究对实际审计数据集或案例进行实证,以探究大数据分析的结果对实际审计结果的影响。
基于此,本文将运用数据驱动的分析方法开展预算执行审计任务,对财政数据建模,依托基于无监督学习的离群点检测方法,设计审计疑点挖掘模型,并应用于真实的审计场景进行审计疑点挖掘,从而验证从数据角度发现审计线索或疑点的有效性。具体而言,本文主要进行了以下两个方面的研究:
(1)财政数据建模。本文研究中所用的数据为财政数据,内容为各个预算单位预算执行的支出明细。首先,根据属性特征,将财政数据建模为时间序列数据,然后,根据已知的审计规则,查找出隐含时间序列类型的审计规则,并探究此类疑点数据所对应的离群点类型。
(2)提出基于时间序列离群点检测的审计疑点挖掘模型。首先,根据审计规则,定义出符合此审计规则的时间序列离群点检测问题。然后,重新设计与改造现有的无监督时间序列离群点检测方法,设计出高效的基于时间序列离群点检测的审计疑点挖掘模型。最后,在真实的财政审计场景中,依托于财政数据中审计人员分配二元标签验证了离群点检测方法在审计疑点挖掘中的有效性。
结果表明,本文提出的基于时间序列离群点检测的审计疑点挖掘模型有两个突出优点:不依赖于审计业务类型及其领域知识;避免规则构建中阈值定义的困境。相比之下,传统审计模型效率低下、泛化能力较弱,从而验证了数据驱动分析在审计中的适用性和有效性。