当前位置: 首页 > 专利查询>复旦大学专利>正文

一种在区块链中识别用户行业身份的方法技术

技术编号:28420302 阅读:62 留言:0更新日期:2021-05-11 18:27
本发明专利技术属于区块链技术领域,具体为一种在区块链中对用户行业身份的识别方法。本发明专利技术主要包括:构建指定时间窗口下基于用户的交易时序网络;利用网络表征学习算法学习交易网络中的结构化特性,生成每个用户(节点)的向量表示;自动化收集地址及其行业标签数据,划分为五个行业(暗网、交易所、赌博、矿工、服务商),确定已知身份用户在行业中的角色(组织者、参与者);利用多标签分类模型,学习用户向量表示和行业身份标签之间的关系,识别未知身份用户的行业身份标签。本发明专利技术能够在区块链中快速识别和预测用户的行业身份信息,判断其活动的主要目的,帮助从宏观角度分析区块链的生态系统。

【技术实现步骤摘要】
一种在区块链中识别用户行业身份的方法
本专利技术属于区块链
,具体为一种在区块链中识别用户行业身份的方法。
技术介绍
2008年,比特币由一位化名中本聪的人首先提出,这种以区块链技术为底层支撑的数字加密货币在学术领域引发了广泛的研究热潮,并且凭借其全球共享、匿名支付等特性,吸引了大量用户,发展迅猛。据加密货币咨询网站CoinMarketCap统计显示,比特币总市值已达到1800亿美元,比特币价格达到9800美元左右。不少犯罪分子利用比特币区块链中交易匿名性的特点隐藏自己的真实身份,进行各类非法活动,导致犯罪率大幅度上涨,严重威胁到个人财产安全甚至人身安全,亟需相关研究。另外,随着交易量的快速增长,一些目的相似的用户和活动已逐渐形成稳定甚至具有代表性的模块结构,探究这种模块结构并分析其相互作用可以加强对区块链交易网络增长机制和关键结构的分析和研究,这从宏观角度丰富了对区块链的理解。尽管这些模块结构的信息可以很好地反映区块链中经济活动的变化和发展趋势,但是目前对区块链中非法活动的研究主要集中在地址和用户层面,缺少宏观角度的探索。本专利技术的重点在于,以比特币区块链为例,引入比特币行业的概念描述模块化结构,将比特币用户分为五个行业,预测用户的行业身份信息。目前对于比特币区块链中识别用户行业身份信息并没有成熟的研究成果或产品发表。
技术实现思路
本专利技术的目的是为了解决单纯从地址和用户维度分析区块链的局限性,从宏观角度分析区块链的发展规律,提供一种新颖的在区块链中识别用户行业身份的方法。本专利技术支持以有向图的方式构建用户交易网络,包括:使用NetworkX的有向图以用户本身为节点,以用户间建立的交易关系为边,构建指定时间窗口内的交易时序网络图。本专利技术提供精准地获取行业标签数据的方法,包括:爬虫自动收集相关网站中公开的比特币地址标签数据,并根据行业类别进行分类,然后按照相应规则提取行业中的组织者与参与者。本专利技术提供高精度的在区块链中识别用户行业身份的通用方法,包括:首先利用网络表征学习算法生成交易网络图中所有节点的向量表示,然后利用多标签分类模型学习节点向量表示和行业标签之间的关系,预测用户的行业身份。与其他区块链分析角度和方式不同的是,本专利技术自动收集并分类比特币区块链中地址标签信息,识别用户在一定时间窗口内的行业身份信息,实现从行业宏观角度开展对比特币区块链发展规律的分析。本专利技术提供的在区块链中识别用户行业身份的方法,具体分为四个步骤。步骤一:构建基于用户的交易时序网络同步区块链上的全量原始交易数据;将基于地址的交易替换为基于用户的交易;使用有向图构建指定时间窗口内的交易时序网络图;其中,每个节点代表用户,每条边代表一笔交易中发送者和接收者的关系,边的权重记录区块链交易的时间和金额。步骤二:生成网络中每个节点的向量表示利用网络表征学习算法(例如DeepWalk(【1】))学习步骤一中生成的交易时序网络的结构;针对某个节点,使用深度优先遍历算法【2】根据节点间的连接信息,显式地聚合邻居节点及边的属性,形成这个节点在网络结构中的位置属性序列(即“句子”序列),进而使用深度学习模型进行无监督学习,为图中的节点生成低维定长向量。步骤三:收集整理行业标签数据及确定用户行业身份和角色爬虫自动收集相关网站(例如WalletExplorer)中公开的比特币地址行业标签,并按照标签类别进行归纳整理,形成比特币区块链重要实体的行业标签数据集,包括暗网、交易所、矿工、服务商、赌博五个行业;根据交易信息确定每个行业中的组织者和参与者;最终具有已知身份的地址数目占20%左右。上述步骤中,收集行业标签数据及确定用户行业身份和角色的具体流程为:(1)爬虫自动收集相关网站中公开的地址标签数据,形成区块链重要实体的标签数据集;参考网站中原有的行业标签,调查这些实体提供的商品或服务的类型,将这些地址相关用户按照行业类型划分为五个行业:暗网(d)、交易所(e)、赌博(g)、矿工(m)、服务商(s);(2)其中,每个行业中用户存在组织者(o)和参与者(p)两种角色;行业用户行业标签被进一步精准标注为行业和角色的组合,如赌博活动参与者(g_p)、暗网活动组织者(d_o)等,具体包括如下子步骤:(2.1)根据这些实体的声明,将其包含的地址相关用户分类为各行业组织者,钱包管理地址除外,这些地址是参与者使用的个人管理账户;(2.2)总结提取规则如表1,从各行业组织者相关交易中识别各行业参与者;在暗网、交易所、赌博和矿工四个行业中,我们按照交易信息,从组织者参与的交易中提取参与者信息;表1各行业参与者的提取规则(2.3)服务行业中提供的服务种类繁多,其服务要求因交易而异,因此我们进一步将该行业的规则分为三种情况;第一种是借贷服务,用户可以使用该服务借用加密货币,或者作为受益人暂时借出自己的加密货币以赚取利息,这两种行为都意味着可以将此类交易的发送者或接收者视为服务的参与者;第二种情况是返利服务,用户在返利平台上达到足够的广告点击或视频观看数量后,该平台将向其支付一定数量的加密货币作为奖励,因此,在交易中收到加密货币的收件人被视为服务的参与者;第三种情况就是除了这两种特定类型的服务,我们将其余服务划分为同一类来提取参与者。步骤四:识别用户行业身份标签根据步骤二中生成的用户节点向量表示和步骤三中收集的行业标签数据,利用多标签分类机器学习模型,学习用户向量表示和标签之间的关系,为无标签用户预测身份信息(矿工行业参与者可用过Coinbase交易直接确定,故实际预测五个行业中共计九种行业身份),得到用户在指定时间段内一个甚至多个行业身份标签。技术效果本专利技术提出的方案是高效的,通过采用NetworkX工具构建复杂的交易网络图,减小内存使用,提高了空间使用率;可以快速检索节点及其临近节点,降低了时间消耗。本专利技术提出的方案识别出的用户行业有高精确度,一方面对标签数据集进行合理划分,提取出行业的参与者,丰富了标签数据集,提高了用于模型训练的数据量;另一方面对机器学习模型进行了不断的调优,确定了一系列参数,保证了模型准确的预测。本专利技术提出的方案是易于实现的,理想情况下可以使用任意一种编程语言完成。其主要技术难点在于行业组织者和参与者角色的划分,以及大规模交易网络中的节点向量表示学习。本专利技术在这两方面都提出了较好的就解决方法,并取得了较好的准确率。本专利技术所设计的用户行业的识别方法,除了可以直接用在比特币区块链上,其相应的处理方法也可为其它支付网络中的预测用户行业方案提供参考,通过自定义修改标签的形式,即可设计出针对不同支付网络的用户行业识别方案。可帮助从宏观角度分析比特币区块链的发展趋势和非法活动的行为目的,具有很好的应用前景和发展前景。附图说明图1为识别用户行业身份的整体流程图。具体实施方式下面对本专利技术的实施例作详细说明,给出详细的实施方式和具本文档来自技高网...

【技术保护点】
1. 一种在区块链中识别用户行业身份的方法,其特征在于,具体步骤如下:/n步骤一:构建基于用户的交易时序网络/n同步区块链上的全量原始交易数据;将基于地址的交易替换为基于用户的交易;使用有向图构建指定时间窗口内的交易时序网络图;其中,每个节点代表用户,每条边代表一笔交易中发送者和接收者的关系,边的权重记录区块链交易的时间和金额;/n步骤二:生成网络中每个节点的向量表示/n利用网络表征学习算法学习步骤一中生成的交易时序网络的结构;针对某个节点,使用深度优先遍历算法根据节点间的连接信息,显式地聚合邻居节点及边的属性,形成这个节点在网络结构中的位置属性序列,即“句子”序列,进而使用深度学习模型进行无监督学习,为图中的节点生成低维定长向量;/n步骤三:收集整理行业标签数据及确定用户行业身份和角色/n爬虫自动收集相关网站中公开的比特币地址行业标签,并按照标签类别进行归纳整理,形成比特币区块链重要实体的行业标签数据集,包括暗网、交易所、矿工、服务商、赌博五个行业;根据交易信息确定每个行业中的组织者和参与者;最终具有已知身份的地址数目占20%左右;/n步骤四:识别用户行业身份标签/n根据步骤二中生成的用户节点向量表示和步骤三中收集的行业标签数据,利用多标签分类机器学习模型,学习用户向量表示和标签之间的关系,为无标签用户预测身份信息,得到用户在指定时间段内一个甚至多个行业身份标签。/n...

【技术特征摘要】
1.一种在区块链中识别用户行业身份的方法,其特征在于,具体步骤如下:
步骤一:构建基于用户的交易时序网络
同步区块链上的全量原始交易数据;将基于地址的交易替换为基于用户的交易;使用有向图构建指定时间窗口内的交易时序网络图;其中,每个节点代表用户,每条边代表一笔交易中发送者和接收者的关系,边的权重记录区块链交易的时间和金额;
步骤二:生成网络中每个节点的向量表示
利用网络表征学习算法学习步骤一中生成的交易时序网络的结构;针对某个节点,使用深度优先遍历算法根据节点间的连接信息,显式地聚合邻居节点及边的属性,形成这个节点在网络结构中的位置属性序列,即“句子”序列,进而使用深度学习模型进行无监督学习,为图中的节点生成低维定长向量;
步骤三:收集整理行业标签数据及确定用户行业身份和角色
爬虫自动收集相关网站中公开的比特币地址行业标签,并按照标签类别进行归纳整理,形成比特币区块链重要实体的行业标签数据集,包括暗网、交易所、矿工、服务商、赌博五个行业;根据交易信息确定每个行业中的组织者和参与者;最终具有已知身份的地址数目占20%左右;
步骤四:识别用户行业身份标签
根据步骤二中生成的用户节点向量表示和步骤三中收集的行业标签数据,利用多标签分类机器学习模型,学习用户向量表示和标签之间的关系,为无标签用户预测身份信息,得到用户在指定时间段内一个甚至多个行业身份标签。


2.根据权利要求1所述的在区块链中识别用户行业身份的方法,其特征在于,步骤三中,所述收集行业标签数据及确定用户行业身份和角色的具体流程为:...

【专利技术属性】
技术研发人员:韩伟力陈鼎洁吕朝阳王锴陈辰黄大鹏
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1