LEVERAGING ENSEMBLE-BASED SEMI-SUPERVISED LEARNING FOR ILLICIT ACCOUNT DETECTION IN ETHEREUM DEFI TRANSACTIONS
创建于 更新于
摘要
本文提出了SLEID,一种基于集成半监督学习的以太坊DeFi非法账号检测框架。方法结合孤立森林进行离群点检测和自训练机制迭代生成伪标签,有效解决标注数据匮乏和恶意账号复杂行为问题。实验覆盖690万笔交易,结果显示SLEID在少数类精准率提升2.56个百分点、F1提升0.90个百分点,整体准确率提升3.74个百分点,同时显著减少对标注数据的依赖,提升了非法账户检测的效果与实用性[page::0][page::1][page::6].
速读内容
研究背景与挑战 [page::0][page::1]
- 以太坊DeFi迅速发展,带来匿名性滥用和复杂的非法洗钱风险。
- 传统监督学习因标注数据匮乏及恶意手法不断演变,检测效果受限。
- 非监督、基于规则和可视化分析各有优缺点,但难以大规模准确落地。
数据集构建与特征工程 [page::3][page::4][page::5]
- 核心581个已知非法账号,通过邻居扩展形成约190万账户大规模数据集,非法账号比例约1%。
- 基于二分图模型精细刻画账户与交易关系,抽取图结构、时间序列、账户和交易属性、波动性及邻居特征共计多维特征。
- 采用递归特征消除优化特征集,减少噪声提升模型稳定性。
模型框架与训练流程 [page::2][page::4][page::5]
- 利用孤立森林识别异常账户作为伪标签,扩充标注集解决类别不平衡。
- 集成随机森林和XGBoost构建软投票混合模型,采用Optuna自动调参。
- 结合半监督自学习迭代策略,基于置信阈值逐步加入伪标签,强化少数类检测能力。
模型性能与对比分析 [page::6][page::7][page::8]
- SLEID在准确率99.44%、召回率95.78%、F1分数96.80%显著领先传统监督算法及多种半监督基线。
- 精度兼顾召回,优于专注单一指标或特定欺诈类型的先前模型。
- 实验表明迭代自学习的最优迭代次数为3次,过多迭代效果降低。

关键特征与模型解释 [page::19][page::20][page::21]
- 交易强度指标(如每区块交易均值最大值)、网络度量(出度、总度的最小值等)和手续费统计是重要因子。
- LIME和SHAP解释揭示局部与全局的特征影响,确保模型透明度。
- 对假阳性案例分析发现高交易活跃度和广泛网络连接可能引发误判。
不平衡数据指标与泛化能力 [page::22]
- 类不平衡下,模型实现PR-AUC约0.997、MCC 0.919和加权F1 0.968,表现出优异的排序能力和平衡性能。
- 适用于大规模、持续变化的DeFi恶意账户检测场景,具有较高实用价值。
深度阅读
金融科技研究报告详尽分析报告
---
元数据与概览
报告标题:Leveraging Ensemble-based Semi-Supervised Learning for Illicit Account Detection in Ethereum DeFi Transactions
作者:Shabnam Fazliani、Mohammad Mowlavi Sorond、Arsalan Masoudifard、Shaghayegh Fazliani
机构:Sharif University of Technology(伊朗);Stanford University(美国)
发布时间:最新数据截止2024年4月4日,文中多处引用2023-2025年研究成果
主题:基于以太坊区块链中去中心化金融(DeFi)交易场景,通过机器学习特别是半监督集成学习技术检测非法账户的研究。
---
该报告旨在通过提出一种名为SLEID(Self-Learning Ensemble-based Illicit account Detection)的半监督集成机器学习框架,有效解决DeFi生态中非法账户检测难题,特别关注标签数据匮乏及非法行为模式复杂多变问题。SLEID结合Isolation Forest异常检测进行伪标签生成,再配合XGBoost与随机森林组成的投票集成模型,通过迭代自学习策略不断提升模型判别能力。报告核心结论表明该方法在超过690万笔以太坊交易数据上表现优异,取得精度、召回率和F1分数等多项指标相比传统方法的明显提升,尤其在少量样本的非法账户检测中展现出卓越能力[page::0,6]。
---
逐节深度解读
1. 引言(Introduction)
以太坊作为智能合约平台催生DeFi飞速发展,带来了金融创新的巨大机遇与风险挑战,尤其是非法账户如诈骗、洗钱、闪电贷攻击的频发。报告引用美国财政部2023年DeFi风险评估,强调DeFi合规性不足引发AML/CFT(反洗钱/反恐融资)风险。特别指出虽然总体非法资金流有所下降,但DeFi链上交易中洗钱路径越来越被利用,跨链桥资金达7.438亿美元,这凸显了对恶意账户精确检测的紧迫需求[page::0]。
2. 相关工作(Related Works)
报告在该部分回顾与本题相关的关键文献:
- 传统监督学习(如XGBoost)、无监督风险评级与视觉分析方法在非法账户检测中的应用及其局限。
- 图学习方法(如多关系GNN、RGCN、图嵌入GTN2vec)最近在捕获复杂网络结构异常上的有效性。
- 半监督学习与合成数据生成(如ATD-SGAN)能够缓解标签数据稀缺问题。
- 报告专门对比了近期以太坊诈骗检测与交易异常检测的机器学习和深度学习方案,强调图结构对提升检测准确率的重要性[page::1-3]。
这些综述为SLEID方案中集成半监督与图特征引入方法的合理性奠定了理论基础。
3. 数据集构建与特征工程(Dataset Construction and Feature Engineering)
3.1 数据采集与筛选
- 构造核心非法账户集581个,关联多个攻击类型。
- 通过二阶邻居扩展策略迭代加入关联账户,直到非法账号比例低于1%(阈值为0.01)。
- 结合多指标如匿名性、洗劫交易和账户寿命等风险评分筛选正规账户。
- 强调DeFi交互的优先性,因洗钱及复杂交易多通过DeFi发生。
- 最终构建了含44,675核心地址与近190万账号,覆盖2015-2024年4月的历史数据,具备较好网络视角和DeFi特征丰富度[page::3-4]。
3.2 图模型选型与预处理
报告对比多种图结构(交易图、地址图、集群图)后,采用了双分图(Bipartite Graph)模型,将节点分成账户与交易两组,明确区分参与者和交易,本质上帮助清晰暴露交易特征及异常模式,提升模型异常检测能力。数据预处理包括清理缺失与极端值,将无信息特征剔除,避免噪声干扰[page::4]。
3.3 特征提取
设计了多个类别的综合特征:
- 图结构特征:入度、出度、邻居度统计等;
- 时间序列特征:交易频率、活动持续时间、时间一致性指标;
- 节点特征:余额、创建时间、合约交互等;
- 交易特征:交易金额、费用及其分布;
- 波动性指标:费用与交易量突变,捕捉市场闪电攻击等异常;
- 邻居汇总特征:交易费和交易量的邻居统计,捕捉局部社区行为[page::5]。
特征体系全面增强了模型捕捉复杂DeFi交易网络微妙异常的能力。
4. 方法论(Methodology)
4.1 宏观流程
- 利用Isolation Forest对未知标签账户进行异常检测,产出出孤值作为潜在非法账户伪标签。
- 在此基础上扩充训练集,应用XGBoost+随机森林集成分类器训练。
- 采用自训练迭代(Self-learning)不断将高置信伪标签加入训练集,改善对少数类(非法)样本的识别能力[page::5]。
4.2 标签分配
- 对未标注子集以异常因子0.5%进行Isolation Forest标注,筛出异常作为伪非法账户补充有标签训练集[page::5]。
4.3 集成模型训练与交叉验证
- 模型采用软投票机制融合XGBoost和随机森林。
- 超参通过Optuna调优,以5折分层交叉验证最大化F1分数。
- 搜索空间包括树的数量、最大深度、学习率、正则化参数及样本权重调整方法[page::5-6]。
4.4 自学习迭代策略
- 在每折中,训练好的集成模型推断剩余未标注账户,选择高置信度预测(例如90%)扩增训练集。
- 迭代数量设置为5,或无可信新样本时停止。
- 通过此方法,模型能有效利用未标记数据及提升类别判别边界能力,显著改善少数类召回率和整体性能[page::6]。
5. 实验及结果分析(Experiments and Results)
5.1 模型性能比较
- 与XGBoost、Random Forest及多种半监督方法如IF-One-Class-SVM、IF-LOF、IF结合XGB或RF对比,SLEID在召回率(95.78%)、F1(96.80%)、总体准确率(99.44%)实现最佳表现。
- 尽管IF-RF模型取得最高精度(99.04%),SLEID在三个关键指标上表现更均衡,利于整体异常检测[page::6-7]。
5.2 与前沿研究对比
- 与Liu et al. (2023)的GTN2vec、Son et al. (2024)的半监督DAE-MLP模型相比,SLEID在精度、召回和F1指标上小幅领先,分别达97.86%、95.78%、96.80%,同时准确率为99.44%[page::7-8]。
- 强调方法论优势:减少对标注数据依赖,集成模型结构,迭代伪标签更新机制。
- 提醒结果受数据集差异影响,直接跨论文比较需谨慎[page::7-8]。
6. 讨论(Discussion)
- 模型对合法账户识别一致性好,反映特征设计和训练流程成功捕捉多样合法行为。
- 自学习迭代发现性能峰值在第三轮,之后可能因伪标签噪声累积导致收益递减,建议限制迭代次数或引入置信度控制机制。
- 通过LIME和SHAP解释性分析,揭示决策依据特征和逻辑,使“黑盒”模型更透明,增强监管可信度。
- 重点考虑类别失衡,报告PR-AUC、加权F1和MCC等指标,系统性考量误判风险[page::8,18-22]。
---
图表深度解读
图1:总体架构流程图(页面2)
该图分为两部分:
- 数据准备模块(蓝色部分),包含非法账户初始采集(Etherscan和DeFi)、数据扩展(融合邻居网络)、数据优化(特征提取与递归特征消除)、孤立森林异常检测;
- 模型训练模块(橙色部分),由更新后的数据输入XGBoost和随机森林模型,使用投票集成输出训练模型;
- 测试阶段,对批量账户进行最终判定。
这套流程系统展现了从粗糙数据到高质量训练集,再到迭代半监督模型训练的完整闭环机制,体现了本方法关键创新点[page::2]。

图2:网络可视化(页面4)
- 蓝色代表合法节点,红色为非法节点,灰色为未知节点。
- 可见非法节点倾向于形成一阶邻接紧密连通子图,映射典型协同诈骗集群。
- 很多灰色未知节点嵌套于非法集群内部,提示可疑行为,促使进一步关注邻居节点。
该图直观说明为何通过邻居扩展有效提高数据结构、捕获细粒度欺诈活动模式的必要性[page::4]。

图3:不同模型对非法与合法类的性能比较(页面7)
- 对非法账号,SLEID在精度、召回和F1评分呈显著提升,均明显优于单模型RF、XGBoost。
- 合法账户表现差异轻微,体现各法对主流样本的准确辨识能力趋同。
- 图形展示强烈支持集成半监督策略提升异常账户识别效果的论断[page::7]。

表1:各模型性能详细对照表(页面7)
| 模型 | 精度(%) | 召回(%) | F1(%) | 准确率(%) |
| ------------- | ------- | ------- | ------ | -------- |
| XGBoost | 89.53 | 76.96 | 82.68 | 96.79 |
| RandomForest | 88.97 | 74.10 | 80.57 | 96.47 |
| IF-OneClassSVM| 56.81 | 92.64 | 70.39 | 82.53 |
| IF-LOF | 70.66 | 85.17 | 77.20 | 88.67 |
| IF-XGBoost | 98.43 | 93.96 | 96.13 | 99.34 |
| IF-RandomForest| 99.04 | 94.12 | 96.51 | 99.40 |
| SLEID | 97.86 | 95.78 | 96.80 | 99.44 |
SLEID在平衡精度与召回上的优势明显[page::7].
表2:与前沿方法结果对比(页面8)
| 指标 | SLEID | Liu et al. (2023) | Son et al. (2024) |
| ---------- | ----------- | ----------------- | ----------------- |
| 准确率 | 99.44% | 95.7% | 96.5% |
| 精度 | 97.86% | 95.3% | 96.5% |
| 召回 | 95.78% | 96.4% | 96.3% |
| F1 | 96.80% | 95.9% | 96.4% |
数据差异使跨论文指标直接对比存有局限,但整体趋势清晰表明SLEID的综合性能优越[page::8]。
图4:双分图示意图(页面14)
左红框为账户节点,右蓝框为交易节点。箭头指向交易发起者与接受者关系。该图形象说明了双分图如何清晰划分账户与交易两类不同节点,利于捕获异构节点间交互特征[page::14]。

图5:Isolation Forest污染率调节实验(页面16)
- 测试0.25%、0.5%、1%三种污染率下模型性能(精度、召回、F1、准确率)。
- 0.5%污染率在各指标上表现均衡最佳,兼顾伪标签样本质量和数量。
- 此方案成为SLEID默认预处理设置[page::16]。

图6:二维PCA数据分布(页面17)
- 散点分布显示数据在主要成分空间中的离散,表示数据包含多个不同簇或行为模式。
- 支持半监督自学习策略利用未标记数据结构的想法,克服单靠少量标签无法覆盖的复杂分布[page::17]。

图7:自学习迭代性能变化(页面18)
- 纵轴为非法类的指标(精度、召回、F1、准确率),横轴为迭代次数(5次)。
- 第三轮迭代达到最大F1和召回,之后指标开始轻微下降,提示过度迭代可能造成噪声积累与过拟合[page::18]。

图8: LIME局部解释实例(页面19)
- 显示单账户被判非法时驱动决策的前10个特征及其贡献方向。
- 诸如代币数量、使用的方法数、ERC20流入金额等为红色增强非法判定的重要变量。
- 有助用户理解具体判定理由[page::19]。

图9: SHAP全局特征重要度(页面20)
- 展示所有样本特征贡献排名,其中交易频率(平均/最大交易次数)、度数统计、交易费用均排前列。
- 颜色对应特征取值,红色为高值通常推动非法预测。
- 反映模型主要依赖交易活跃度与网络连通性区分异常的逻辑[page::20]。

图10: XGBoost特征重要性柱状图(页面21)
- 清晰列出交易强度与网络结构相关特征的重要程度,前五特征包括交易次数峰值、均值和交易费最大值。
- 进一步支撑上述结论[page::21]。

图11: 误报样本特征归因分析(页面21)
- 分析错误判别为非法的合法账户,主要因这类账户交易频繁且连接度高。
- 说明模型对高度活跃账户敏感,易产生过度警报。
- 提醒后续需结合额外特征或调整阈值降低误报[page::21]。

图12: 类别不均衡指标表现(页面22)
- PR-AUC近乎理想(0.997),表明模型在少数类排序效果极佳。
- MCC达到0.919,说明二分类纠错平衡优秀。
- 加权F1为0.968,有效兼顾精度与召回。
- 指标显示整体模型在极端不平衡情况下依然保持强鲁棒性[page::22]。

---
估值分析
报告未涉及具体财务估值计算或传统金融市场价格评估,而是围绕基于机器学习模型对区块链账户行为异常的检测性能进行评估,强调统计指标(精度、召回、F1、准确率、PR-AUC、MCC)及模型泛化能力的度量。故此不包含经典DCF、市盈率等估值方法的应用。
---
风险因素评估
报告中对风险因素主要聚焦于:
- 类不均衡与伪标签噪声风险:过多迭代可能引入错误伪标签,导致模型过拟合及性能下降。针对该风险,提出限定迭代次数并用置信度阈值滤波保持数据质量策略[page::8,17-18]。
- 误报代价高昂:高频交易或连接度合法账户易被误判为非法,增加审核成本和系统负担。建议结合上下文特征并调整门限降低误判[page::21]。
- 数据集和评测差异风险:强调不同方法由于基础数据集差异,结果不可直接横向比较,建议未来统一标准数据集和评估协议以保证公平比较[page::7-8]。
- 模型复杂性与可解释性挑战:集成架构为“黑盒”模型,采用LIME和SHAP增加透明度降低审计门槛[page::8,18-19]。
---
批判性视角与细微差别
- 报告整体采取严谨的方法学,强调了标签稀缺性和恶意行为演变的现实挑战,创新性地结合异常检测与半监督迭代学习,技术路径合理。
- 伪标签生成依赖Isolation Forest表现,若该过程标注误差过大,可能影响后续集成模型质量,建议进一步探索自适应伪标签筛选策略。
- 网络扩展策略虽提高了非法比例和样本丰富度,但随数据规模膨胀,计算成本和模型复杂度飙升,报告未深述此扩展带来的资源消耗与实际部署难题。
- 虽着重分析多数类指标但未充分讨论检测延迟及在线实时应用性能,未来研究应关注模型实用性和时效性。
- 误报分析指示模型对合法高频账户过于敏感,后续可尝试纳入行为语义或链外数据辅助判别。
- 各特征层面虽全面,但特征重要度未见动态调整机制,或对抗样本鲁棒性缺少报告,值得关注。
- 部分指标精度极高,或受测试集分布特性影响,外部验证仍需补充。
---
结论性综合
本报告提出的SLEID框架针对基于以太坊区块链DeFi交易的非法账户检测问题,综合利用了:
- 先进的大规模数据扩展策略结合DeFi交易活跃性,构建了包含逾180万账户的丰富数据集;
- 双分图模型清晰表达账户与交易交互,强化特征表达能力,涵盖图结构、时序、交易价值和邻居统计多层面;
- 创新的半监督学习架构,集成Isolation Forest异常检测生成高置信度伪标签,辅以XGBoost和随机森林软投票融合,结合5折交叉验证和自学习迭代策略稳步提升少数类检测效果;
- 综合性能显著优于多种监督和半监督基线模型,关键指标如F1(96.8%)、召回(95.78%)、总体准确率(99.44%)均达到业内领先水平,并在难以标注的场景下表现出良好扩展性;
- 详细的模型解释性分析(LIME、SHAP)为监管和应用提供了可视化决策依据,提升信任度;
- 风险因素识别深入,针对迭代过拟合、误报以及数据依赖性提出对应缓解途径,增强实用价值。
综上,SLEID架构为Ethereum DeFi生态非法账户检测提供了一套高度有效且技术先进的解决方案,具有广泛推广潜力,并为区块链安全监管和金融合规领域奠定基础。未来工作方向包括复杂图特征引入、实时检测能力提升、多链融合分析以及自学习策略优化,进一步增强模型对新兴欺诈态势的适应性和实效性[page::0-9,13-22]。
---
参考图片
- 图1:整体方法流程

- 图2:网络可视化示意

- 图3:模型性能比较

- 图4:双分图结构示意

- 图5:Isolation Forest污染率比较

- 图6:二维PCA散点图

- 图7:迭代自学习性能趋势

- 图8:LIME局部解释

- 图9:SHAP全局特征重要性

- 图10:特征重要性柱状

- 图11:误报归因分析

- 图12:类不均衡指标表现

---
综上所述,该文档通过深入的理论回顾、精细的数据构建、严谨的半监督学习框架设计,并配合丰富的实验验证和模型可解释性工具,展现了在去中心化金融背景下利用机器学习辨识非法账户的先进水平,为区块链安全领域提供了极具价值的学术和技术贡献。

