关键词:
区块链
以太坊
智能合约
欺诈检测
机器学习
摘要:
区块链是一种具有去中心化、防篡改、可追溯等特点的新兴技术,自问世以来一直备受众多研究学者的青睐。以太坊作为区块链2.0的产物,在为用户带来方便的同时,还存在诈骗者利用区块链的匿名性来实施欺诈活动的隐患,如欺诈账户与欺诈合约,给投资者带来了不可估量的经济损失。目前,国内外针对以太坊区块链的欺诈检测研究相对较少,现有的检测方法难以准确地识别欺诈行为。因此,本文基于以太坊数据,综合运用机器学习技术,针对不同账户中的典型欺诈问题,研究相应的检测方法,从而促进区块链生态系统的健康发展。主要研究工作如下:(1)提出了一种基于Light GBM的欺诈账户检测方法。当前欺诈账户检测方法准确率低且性能不佳。本文收集了来自Etherscan平台的2223个欺诈账户和5805个非欺诈账户,并从中检索交易及区块数据,融合了基于交易历史规律提取的14个手工特征和featuretools工具自动提取的86个统计特征,较全面地描述了用户的交易行为,借助Light GBM模型进行检测,实验F1值达94.92%,高于仅使用单一特征的检测结果,能较快速有效地检测欺诈账户。(2)提出了一种基于注意力胶囊网络的欺诈合约检测方法。针对大多数智能合约部署无需源代码,并且基于源码特征进行检测存在困难的问题,本文收集并下载智能合约部署时所需的字节码以及应用程序二进制接口(Application Binary Interface,ABI),从中提取顺序、频率及调用序列来描述合约的行为,通过可视化技术转换为RGB图像。为了避免数据不平衡给检测工作带来的影响,使用Fancy PCA进行数据增强,将扩增后的RGB图像输入到注意力胶囊网络模型(SECaps Net)。与已有的研究工作相比,本文方法的F1值为98.38%,具有较高精度,并且能够在合约部署阶段有效检测出欺诈合约。(3)以太坊欺诈账户特征分析。针对本文提出的两种检测方法,通过实验评估账户与合约特征的重要程度,可知交易时间间隔、交易总价值、交易数量等特征是区分欺诈账户的重要因素,而操作码频率特征对欺诈合约的检测结果影响较大。另外,采用本文所提出的方法对Kaggle欺诈数据集以及蜜罐合约数据集进行案例分析,实验结果表明本文方法不仅适用于某一类欺诈行为的检测,而且在其他类型的欺诈检测任务中也取得了良好的效果。