当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于社交网络拓扑图的关联用户身份识别方法技术

技术编号:34270792 阅读:27 留言:0更新日期:2022-07-24 15:58
目前的大多数方法都将社交网络嵌入到低维向量空间中,然后将用户对齐到低维空间中。然而,由于社会网络极其复杂和庞大,在网络嵌入过程中很容易受到不同邻居的误差传播和噪声的影响。基于此,本发明专利技术提供了一种基于社交网络拓扑图的关联用户身份识别方法,首先形成用户的ego网络(即提取用户的一节邻居形成的局部网络),然后使用随机游走提取用户节点序列,接着使用自然语言模型框架学习用户的低维向量表示,最后训练矩阵将两个社交网络映射到相同的特征空间中进行对齐。本发明专利技术通过利用ego网络可以避免高阶邻居带来的干扰,因此可以提高节点嵌入结果,提升关联准确度。提升关联准确度。提升关联准确度。

An associated user identification method based on social network topology

【技术实现步骤摘要】
一种基于社交网络拓扑图的关联用户身份识别方法


[0001]本专利技术涉及多交网络数据分析及挖掘
,尤其涉及一种基于社交网络拓扑图的关联用户身份识别方法。

技术介绍

[0002]关联用户身份识别,旨在发现同一个用户在多个社交网络平台中的不同身份之间的对应关系,是多个社交网络数据分析及挖掘领域的关键技术,具有广泛的商业应用需求,在网络安全和个性推荐方面有着重要的应用。
[0003]目前大多数方法都是基于DeepWalk(Perozzi B.,AI

Rfou R.,Skiena S.DeepWalk:Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge discovery and data mining.New York:ACM Press,2014:701

710.)的方法,该方法借鉴了Word2vec(Mikolov T.,Sutskever I.,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2013:3111

3119.)方法。Word2vec方法是在自然语言处理中获取词向量的方法,可以将稀疏的,高维离散向量转化为相对稠密、低维连续的向量。虽然这种方法是用于词向量,通过中心词向量来重构它周围的词向量,但节点表示亦可借用这种思想。由于社交网络中节点和自然语言中的单词都具有幂律分布,所以DeepWalk方法便是由此来将词向量中的方法应用到社交网络中来。这种方法将随机游走和Skip

gram方法结合,采用随机游走的方式将社交网络中的节点提取出一条条的节点序列,然后利用Skip

gram方法得到节点的嵌入向量。但这种方法只是得到两个特征空间,并没有将特征空间统一起来。
[0004]之后,在2020年,Fan等人提出了ACCM的方法(Zhou F,Zhang K,Xie S,et al.Learning to Correlate Accounts Across Online Social Networks:An Embedding

Based Approach[J].INFORMS Journal on Computing,2020,32.),他们同样是利用随机游走提取出节点序列,然后通过Skip

gram方法将节点序列的集合映射为一个特征向量空间。这样就能得到两个社交网络各自的特征空间。为了将特征空间做统一,他们还利用部分已知的匹配用户做约束,来训练一个映射矩阵,这样便可以将两个社交网络的特征空间投影到同一个特征空间中。由此在这个统一的特征空间中做相似性度量,然后根据相似度结果做相似性用户身份关联。虽然这种方法减少了两个社交网络的特征向量空间的不同,难以更好的匹配所带来的误差,但由于其方法在进行网络嵌入时是使用的是整张社交网络,这样会导致节点的高阶邻居影响过大,而高阶邻居往往对节点并不会起到什么关键性的作用,相反可能还会引入更多的噪声干扰,使得节点嵌入结果并不是很准确,引入了更多的误差。

技术实现思路

[0005]本专利技术的目的在于提出一种基于社交网络拓扑图的关联用户身份识别方法,用于解决现有方法在进行邻居节点的嵌入时过多的引入了高阶邻居(即没有与该节点直接相连的其他节点)的噪声,从而导致识别精度较低的技术问题。
[0006]为了解决以上技术问题,本专利技术提供了一种基于网络表示的关联用户身份识别方法,包括如下步骤:
[0007]S1:获取已知的两个社交网络数据集,其中,已知的社交网络数据集包括用户和用户之间的好友关系,两个社交网络数据集具有关联用户;
[0008]S2:根据社交网络数据集中的用户以及好友关系分别构建社交网络G1和G2的拓扑图,其中,社交网络拓扑图中包括节点和连边,节点表示用户,连边表示具有好友关系;分别根据社交网络G1和G2形成每个节点的一阶ego网络,其中,G1网络中每个节点的一阶ego网络图组合形成一个ego拓扑图集合,G2网络中每个节点的一阶ego网络图组合形成一个ego拓扑图集合;
[0009]S3:分别将两个社交网络G1和G2中每个节点的ego拓扑图集合依据每个节点的ego网络形成s个节点序列,其中,节点序列提取采用随机游走的方法,形成两个社交网络的节点序列集合;
[0010]S4:利用skip

gram模型将形成的两个社交网络的节点序列集合分别映射成两个特征空间,并在映射的特征空间中学习节点的低维向量表示,得到每个节点的特征向量表示;
[0011]S5:根据两个社交网络数据集的关联用户训练得到一个目标特征映射矩阵,将两个特征空间映射成同一个的特征空间,然后计算社交网络G1中的新节点与社交网络G2中每一个节点之间的相似度,并根据计算出的相似度,进行关联用户身份识别,其中,社交网络G1中的新节点为G1中的原有节点根据训练得到的目标特征映射矩阵进行映射后得到的节点。
[0012]在一种实施方式中,两个社交网络数据集包括数据集一和数据集二,步骤S2包括:
[0013]S2.1:根据数据集一构建社交网络G1的拓扑图,其中,G1中包括n个节点,分别为v1,v2…
v
n
,从G1中的节点v1出发,提取该节点和它的所有一阶邻居,然后根据G1中的边补充所提取的节点和一阶邻居之间的连边以及各个一阶邻居之间的连边,形成节点v1的ego网络图Gv1,v2‑
v
n
重复此过程直到形成n个节点的ego网络图,最后形成一个ego网络集合
[0014]S2.2:根据数据集二构建社交网络G2的拓扑图,其中,G2中包括m个节点,分别为v
′1,v
′2…
v

m
,从G2中的节点v
′1出发,提取该节点和它的所有一阶邻居,然后根据G2中的边补充所提取的节点和一阶邻居之间的连边以及各个一阶邻居之间的连边,形成节点v
′1的ego网络图Gv1′
,v
′2‑
v

m
重复此过程直到形成m个节点的ego网络图,最后形成一个ego网络集合
[0015]在一种实施方式中,步骤S3包括:
[0016]S3.1:根据G1形成的ego网络集合,从节点v1开始,在对应的ego网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社交网络拓扑图的关联用户身份识别方法,其特征在于,包括:S1:获取已知的两个社交网络数据集,其中,已知的社交网络数据集包括用户和用户之间的好友关系,两个社交网络数据集具有关联用户;S2:根据社交网络数据集中的用户以及好友关系分别构建社交网络G1和G2的拓扑图,其中,社交网络拓扑图中包括节点和连边,节点表示用户,连边表示具有好友关系;分别根据社交网络G1和G2形成每个节点的一阶ego网络,其中,G1网络中每个节点的一阶ego网络图组合形成一个ego拓扑图集合,G2网络中每个节点的一阶ego网络图组合形成一个ego拓扑图集合;S3:分别将两个社交网络G1和G2中每个节点的ego拓扑图集合依据每个节点的ego网络形成s个节点序列,其中,节点序列提取采用随机游走的方法,形成两个社交网络的节点序列集合;S4:利用skip

gram模型将形成的两个社交网络的节点序列集合分别映射成两个特征空间,并在映射的特征空间中学习节点的低维向量表示,得到每个节点的特征向量表示;S5:根据两个社交网络数据集的关联用户训练得到一个目标特征映射矩阵,将两个特征空间映射成同一个的特征空间,然后计算社交网络G1中的新节点与社交网络G2中每一个节点之间的相似度,并根据计算出的相似度,进行关联用户身份识别,其中,社交网络G1中的新节点为G1中的原有节点根据训练得到的目标特征映射矩阵进行映射后得到的节点。2.如权利要求1所述的基于社交网络拓扑图的关联用户身份识别方法,其特征在于,两个社交网络数据集包括数据集一和数据集二,步骤S2包括:S2.1:根据数据集一构建社交网络G1的拓扑图,其中,G1中包括n个节点,分别为v1,v2…
v
n
,从G1中的节点v1出发,提取该节点和它的所有一阶邻居,然后根据G1中的边补充所提取的节点和一阶邻居之间的连边以及各个一阶邻居之间的连边,形成节点v1的ego网络图Gv1,v2‑
v
n
重复此过程直到形成n个节点的ego网络图,最后形成一个ego网络集合S2.2:根据数据集二构建社交网络G2的拓扑图,其中,G2中包括m个节点,分别为v
′1,v
′2…
v

m
,从G2中的节点v
′1出发,提取该节点和它的所有一阶邻居,然后根据G2中的边补充所提取的节点和一阶邻居之间的连边以及各个一阶邻居之间的连边,形成节点v
′1的ego网络图Gv1',v
′2‑
v

m
重复此过程直到形成m个节点的ego网络图,最后形成一个ego网络集合3.如权利要求1所述的基于社交网络拓扑图的关联用户身份识别方法,其特征在于,步骤S3包括:S3.1:根据G1形成的ego网络集合,从节点v1开始,在对应的ego网络中利用随机游走的方式提取出s条节点序列,其中,每条序列开头为节点v1,序列长度为t,剩余节点重复此过程,最终,每个节点的ego网络提取s条节点序列,共可获得n*s条节点序列,...

【专利技术属性】
技术研发人员:胡瑞敏甄宇任灵飞吴俊杭胡文怡李登实
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1