关键词:
Logistic回归
支持向量机
随机森林
财务舞弊
摘要:
上市公司公开发布的财务报表是使投资者了解其公司规模、经营状况、盈利潜力等综合水平并做出相关投资决策的最主要依据。过去人们认为,数据是最具有说服力的,而且如果财务报表中的数据出了差错,很容易通过较为简单的计算来发现,因而对财务报表给予了极大的信任。然而,随着市场经济的开放和现代技术手段的发展,一些上市公司为牟取私利而对财务报表进行舞弊,且舞弊手段日渐隐蔽,有时很难被及时发现,其潜在危害十分巨大。因此,亟需有效的方法来预测财务舞弊。本文旨在通过建立数学模型,针对上市公司公布的某年度财务报表数据进行分析,根据模型预测结果判断其是否存在舞弊现象。通过查阅近年来的相关文献发现,国外对财务报表的研究主要关注公司破产和公司财务危机等问题,国内研究主要关注上市公司是否会被特别处理(ST)及其是否会出现财务困境,而对财务舞弊预测的相关研究较少,因此本文对财务舞弊预测进行一定的研究和分析是很有意义的。本文将机器学习方法应用到财务舞弊的预测中。机器学习既可以自上而下的验证或反驳假设,又可以自下而上的从数据中得出无假设的结论。因此,本文采用机器学习方法分别建立了三种模型:Logistic回归模型,支持向量机(SVM)模型,以及随机森林(RF)模型。Logistic回归模型在发现隐藏的数据信息方面应用广泛,以往的研究也证明其具有良好的效果,本文以此为基础进行讨论,并对模型做出了一些改进。由于财务报表是否舞弊是一个典型的分类问题,因此采用机器学习中分类和预测更加准确的算法可能会取得更好的效果。由于获取的样本量有限,而样本维数较高,并且恰为经典的二分类问题,于是处理具有这些特性数据的支持向量机模型成为了一个很好的选择。随即,由二分类自然地联想到二叉树,从而对各个决策树分类器拟合集成效果较好的随机森林模型也成为了本文的选择。由于财务报表舞弊手段存在变化,模型若能随着时间的推移添加或删除变量以及自动选择变量,则能够更加有效地识别上市公司进行舞弊的财务报表。因此,对于每个模型,本文都利用交叉验证对参数进行选择,从而对模型进行了优化。根据2013-2018年间在证监会及其下属证监局官方网站上公布的被公开行政处罚的公司名单,本文收集了舞弊公司在不同舞弊年度的财务报表数据及相应年度非舞弊上市公司的财务报表数据。所获取数据中的一部分用来建立模型,另一部分用来检测模型。由于舞弊公司在上市公司总体中的数量相对较少,本文采用不同的数据处理方法,分别建立了非平衡数据加权模型、过采样模型和欠采样模型。对于模型效果的判断,本文选取了五个指标来进行分析。结果表明,欠采样方法下的支持向量机模型的查全率最高,而欠采样方法下的随机森林模型在其他指标上表现更好,因此本文建议在基于支持向量机模型对公司是否舞弊进行预测时,结合随机森林模型进行综合考虑。最后,对模型的应用进行拓展,用模型选择出舞弊概率较大的公司,并将其从股票池中剔除,回测结果表明投资组合的收益将得到提高,表明本文的研究具有很好的应用价值。