System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据增强的以太坊账户身份识别方法及系统技术方案_技高网

一种基于数据增强的以太坊账户身份识别方法及系统技术方案

技术编号:40644244 阅读:3 留言:0更新日期:2024-03-13 21:24
本发明专利技术公开了一种基于数据增强的以太坊账户身份识别方法及系统。本方法为:1)根据以太坊网络中的账户交易信息以及以太坊网络中各节点的标签信息,构建全局账户交易图;2)获取每一节点的统计特征、时序交易特征和交易结构特征,并将每一节点及其邻居节点的信息进行聚合得到对应节点的多维融合特征;3)通过生成对抗网络根据各节点的多维融合特征学习得到少样本节点类别的完整特征潜在分布;根据样本的实际分布与完整特征潜在分布之间的差异优化生成对抗网络;然后利用优化后的生成器生成少样本节点类别的多维融合特征;4)利用增强后的样本集训练得到分类器;5)将待识别的以太坊账户的多维融合特征输入到分类器中,得到对应的身份类别。

【技术实现步骤摘要】

本专利技术涉及一种基于数据增强的以太坊账户身份识别方法及系统,属于区块链。


技术介绍

1、区块链是一种去中心化的数据存储技术,提供安全、防篡改、可追溯的数据记录。区块链技术提供的巨大经济价值和匿名性使其成为黑客和其他网络犯罪分子的有吸引力的目标。区块链上的每个人都有一个虚拟身份,称为假名,它与他们的现实世界身份没有直接联系。假名账户可能会导致难以识别参与区块链非法交易的个人,这可能导致金融犯罪,例如庞氏骗局、赌博和网络钓鱼欺诈。考虑到该领域金融犯罪的潜在后果,制定有效的区块链安全策略至关重要。

2、目前以太坊账户身份标签主要是发布在第三方网站,其中ethscan是以太坊最有名的账户身份标签网站。访问该网站可以看出存在大量分类的以太坊账户身份标签,并且各类账户标签数据很不平衡,比如gambling标签账户是151条,defi标签账户是1879,两者不平衡率达到12倍。从ethscan网站采集了phish/hack、gambling、ponzi、mining、defi标签的账户数据,phish/hack与ponzi账户标签数量的不平衡率最大达到46.5倍(如表1所示)。通过实验验证发现(如表1所示),现有以太坊账户身份识别方法在这类不平衡数据集上的效果比较差。

3、表1phish/hack与ponzi账户标签数量的不平衡率

4、 分类 phish/hack gambling ponzi mining defi 账户数 2326 143 50 194 1861 不平衡比例 46.5 2.8 1 3.8 37.2

5、表2现有方法对小样本gambling、ponzi、mining三类账户身份识别效果

6、 现有方法 phish/hack gambling ponzi mining defi fagnn 0.92 0.18 0.22 0.44 0.71 ttagn 0.82 0.15 0.14 0.63 0.55


技术实现思路

1、针对现有以太坊账户身份识别方法在不平衡数据集上的效果比较差,本专利技术提供了一种基于数据增强的以太坊账户身份识别方法与系统,其目的在于通过数据增强,优化数据分布,提升以太坊账户身份识别效果。本专利技术通过从以太坊账户的统计特征、时序交易特征和交易结构特征等出发设计以太坊节点账户特征表示,利用生成对抗模型来平衡小样本数据分布,同时深度挖掘few-shot(小样本)节点类别生成特定的特征,训练多层感知机对账户身份进行分类,提供高效、准确的以太坊账户身份识别方法,为以太坊平台的异常账户监管提供数据支撑。

2、为了实现上述目的,本专利技术的技术方案为:

3、一种基于数据增强的以太坊账户身份识别方法,其步骤包括:

4、1)根据以太坊网络中的账户交易信息以及以太坊网络中各节点的标签信息,构建出具有标签的全局账户交易图;每一以太坊账户对应所述全局账户交易图中的一节点;

5、2)从以太坊网络中获取每一节点的统计特征、时序交易特征和交易结构特征,并将每一节点的特征作为该节点对应的节点信息加入到所述全局账户交易图;然后将所述全局账户交易图输入图卷积网络,对每个节点及其邻居节点的信息进行聚合,作为对应节点的多维融合特征;

6、3)将每一节点作为一个样本,通过生成对抗网络根据各节点的多维融合特征学习得到少样本节点类别的完整特征潜在分布;根据样本的实际分布与所述完整特征潜在分布之间的差异优化所述生成对抗网络;然后利用优化后的所述生成对抗网络中的生成器生成少样本节点类别的多维融合特征,然后将所生成特征添加到样本集的特征矩阵x中,增加训练样本,得到增强样本集及其对应的增强特征矩阵x’;

7、4)将增强特征矩阵x’输入多层感知器mlp,得到对应的分类结果(mlp(x’);然后根据所得分类结果(mlp(x’)与增强样本集的节点标注标签label node’之间的交叉熵优化多层感知器mlp,将优化后的多层感知器mlp作为分类器;

8、5)对于一待识别的以太坊账户a,获取该以太坊账户a对应的多维融合特征并将其输入到所述分类器中,得到该以太坊账户a对应的身份类别。

9、进一步的,利用基于注意力的lstm网络获取所述时序交易特征,其方法为:

10、(a)针对每一节点,查找其邻接节点;

11、(b)按照交易时间戳顺序对该节点的邻接节点进行排序;

12、(c)按时序将该节点的每一邻接节点依次输入lstm层、注意力层,得到各邻接节点的时序交易特征;

13、(d)将注意力层输出的各邻接节点的交易特征进行拼接形成该节点的时序交易特征。

14、进一步的,获取所述交易结构特征的方法为:对于每一节点,以该节点为中心对所述全局账户交易图按照最大跳数1进行一跳子图划分,创建一跳子图数据集作为该节点的交易结构特征。

15、进一步的,所述一跳子图g={v,e,av,tr},其中v表示节点集合,e表示节点之间的边集合,av表示一跳子图对应的维度为(n_node,base_dim+series_dim)的特征矩本文档来自技高网...

【技术保护点】

1.一种基于数据增强的以太坊账户身份识别方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,利用基于注意力的LSTM网络获取所述时序交易特征,其方法为:

3.根据权利要求1所述的方法,其特征在于,获取所述交易结构特征的方法为:对于每一节点,以该节点为中心对所述全局账户交易图按照最大跳数1进行一跳子图划分,创建一跳子图数据集作为该节点的交易结构特征。

4.根据权利要求3所述的方法,其特征在于,所述一跳子图G={V,E,Av,Tr},其中V表示节点集合,E表示节点之间的边集合,Av表示一跳子图对应的维度为(n_node,base_dim+series_dim)的特征矩阵,n_node表示一跳子图中的节点总数,base_dim为节点的基本统计特征的维度,series_dim表示节点的时序交易特征的维度。对于账户节点的特征矩阵,每行表示一个节点的统计特征和时序交易特征的拼接。Tr表示账户之间的交易序列集合,长度为n_edge,表示账户之间交易关系边的数量。每个交易序列包含一对节点之间的交易金额、时间戳和方向信息。

5.根据权利要求1或2或3所述的方法,其特征在于,得到所述增强样本集的方法为:

6.根据权利要求1或2或3所述的方法,其特征在于,所述差异为Wasserstein距离。

7.一种基于数据增强的以太坊账户身份识别系统,其特征在于,包括数据预处理模块、特征提取模块、特征融合模块、分类器训练模块和身份类别模块;

8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。

...

【技术特征摘要】

1.一种基于数据增强的以太坊账户身份识别方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,利用基于注意力的lstm网络获取所述时序交易特征,其方法为:

3.根据权利要求1所述的方法,其特征在于,获取所述交易结构特征的方法为:对于每一节点,以该节点为中心对所述全局账户交易图按照最大跳数1进行一跳子图划分,创建一跳子图数据集作为该节点的交易结构特征。

4.根据权利要求3所述的方法,其特征在于,所述一跳子图g={v,e,av,tr},其中v表示节点集合,e表示节点之间的边集合,av表示一跳子图对应的维度为(n_node,base_dim+series_dim)的特征矩阵,n_node表示一跳子图中的节点总数,base_dim为节点的基本统计特征的维度,series_dim表示节点的时序交易特征的维度。对于账户节点的特征矩阵,每行表示一个节点的统计特征和时序交易特征的拼接。...

【专利技术属性】
技术研发人员:姚忠将汤学海肖文杰张潇丹韩冀中虎嵩林
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1