当前位置: 首页 > 专利查询>广州大学专利>正文

基于注意力机制的跨社交网络虚拟身份关联方法及装置制造方法及图纸

技术编号:38903804 阅读:24 留言:0更新日期:2023-09-22 14:22
本发明专利技术公开了一种基于注意力机制的跨社交网络虚拟身份关联方法及装置,方法包括:首先对用户进行特征提取,然后使用图注意力网络来聚合邻居节点特征作为用户的图向量;然后使用一个分层的语言注意网络来编码每个用户的文本特征,即文本向量;最后将用户的图向量和文本向量相加得到用户的最终表示,通过将来自不同社交网络的两个用户向量拼接输入到MLP中来输出分类结果,判断两个用户是否为同一个人的账户。本发明专利技术通过对用户的社交关系和发表内容进行特征提取,利用注意力机制对用户的社交关系和发表内容进行融合,得到更加全面的用户表征,能够解决依赖人工标注、单模态表征能力弱等问题。弱等问题。弱等问题。

【技术实现步骤摘要】
基于注意力机制的跨社交网络虚拟身份关联方法及装置


[0001]本专利技术属于虚拟身份关联的
,具体涉及一种基于注意力机制的跨社交网络虚拟身份关联方法及装置。

技术介绍

[0002]虚拟身份是指在互联网上所使用的与现实身份无关的虚拟个人信息。随着社交网络的兴起,越来越多的人开始在社交网络上创建虚拟身份并与其他人进行交互。虚拟身份不仅是人们进行社交互动的重要方式,也是网络支付、网络购物等各种网络应用的必要条件之一。虚拟身份关联可以帮助社交网络和其他互联网应用准确地识别不同虚拟身份背后的现实身份,从而更好地管理虚拟身份和用户信息。例如:简化用户管理、防止虚假账号和欺诈行为、改善广告投放效果、改善社交网络运营效率等。
[0003]然而,在虚拟身份的使用中,也存在着一些问题。如何准确地关联不同社交网络中的虚拟身份,成为了亟待解决的问题。目前,现有的一些虚拟身份关联方法主要是根据用户自身属性或者用户发表内容来获取特征,通过相似性计算来确定两个用户是否属于同一个自然人。然而用户在不同的社交平台上生成的社交媒体数据通常是不尽相同的,因此单单从用户自身属性或者用户发表内容来提取特征获得的表征能力较弱。而且仅考虑用户自身而忽略社交关系的潜在影响也使得关联的准确性不高。近年来,由于深度学习在特征提取方面的优异表现,基于深度学习的方法被广泛应用在社交网络领域,但是如何应用深度学习的方法来解决跨社交网络虚拟身份关联问题又是一大关键问题。

技术实现思路

[0004]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于注意力机制的跨社交网络虚拟身份关联方法及装置,具有融合用户社交关系和用户发表内容两个维度特征并且可以发现跨社交网络的用户潜在关联等优点,解决了传统方法依赖人工提取特征、只考虑单个维度特征表达能力弱的问题。
[0005]为了达到上述目的,本专利技术采用以下技术方案:
[0006]第一方面,本专利技术提供了一种基于注意力机制的跨社交网络虚拟身份关联方法,包括下述步骤:
[0007]提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;
[0008]分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表
的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;
[0009]将来自不同社交网络平台用户各自的最终嵌入进行拼接后输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。
[0010]作为优选的技术方案,所述节点特征,是对每个用户采用node2vec进行嵌入得到;
[0011]所述文本特征,是每个用户采用word2vec进行单词级别的嵌入得到。
[0012]作为优选的技术方案,在提取用户特征的步骤中,将社交网络表示为无向图G=(U,E),其中用户表示节点U,边E表示用户之间的社交关系,接着根据无向图G,生成随机游走序列,node2vec使用随机游走来生成节点序列;生成节点序列的步骤产生了许多由节点组成的序列,随后训练嵌入模型,对生成的随机游走序列进行嵌入模型训练;该嵌入模型通过学习将节点的上下文信息映射到嵌入空间中,使用梯度下降算法对嵌入向量进行训练;最后输出节点嵌入作为该节点的表示,即关系嵌入模型的输入X
in

[0013]作为优选的技术方案,在分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入的步骤中,具体为:
[0014]将得到的节点特征放入到图注意力网络进行嵌入得到用户的关系嵌入;
[0015]将得到的文本特征放入到带有注意力机制的双向循环神经网络进行嵌入得到用户的文本嵌入T;
[0016]将得到的用户的关系嵌入和的文本嵌入进行拼接得到用户的最终嵌入表示。
[0017]作为优选的技术方案,对于给定的社交网络N,将用户看成图的节点U,将用户之间的社交关系看作图的边E,图注意力网络由几个堆叠的图注意层组成,对于第i个图注意层,对每个用户节点J,逐个计算用户节点j和其邻居节点k之间的相似系数
[0018][0019]其中,W
i
是应用于每个节点的共享权重矩阵,用于对顶点的特征进行增维,a(
·
)表示非线性激活函数,将向量映射到一个实数上,[
·
||
·
]表示将两个向量进行拼接,和是第i个图注意层的用户节点和其邻居节点的特征向量输入,当i=1时,和为和然后通过[
·
||
·
]将节点j,k变换后的特征进行拼接,通过a(
·
)将拼接后的高维特征映射到一个实数上;
[0020]计算完用户所有邻居节点的相似系数后,用softmax进行注意力系数的归一化:
[0021]根据计算好的注意力系数,特征加权求和得到第i层的用户节点嵌入
[0022]作为优选的技术方案,对于给定的用户,将通过得到的文本嵌入输入进一个双向循环神经网络BiRNN中学习每个单词的隐藏状态h
cl

[0023][0024][0025][0026]其中GRU(
·
)是双向循环社交网络的神经元,控制学习上下文的表示,w
cl
是通过学习得到的单词向量,cl表示用户的第c个发表内容的第l个单词;
[0027]得到单词的隐藏表示后,引入一个注意层来从BiRNN层获得隐藏状态的加权和,通过初始化一个上下文向量u
w
来计算第c个发表内容中第l个单词的注意力系数β
cl

[0028]u
cl
=tanh(W
w
·
h
cl
+b
w
)
[0029][0030]W
w
和b
w
是将每个单词向量映射到一个隐藏空间中的权重矩阵和偏差,通过上述得到的单词隐藏状态h
cl
和注意力系数β
cl
可以得到第c个发表内容的文本向量s
c

[0031][0032]同样地,在发表内容层级上,使用与单词层级相同的模型来推导学习用户发表内容的隐藏表示h
c

[0033][0034][0035][0036]在得到发表内容的隐藏表示后,引入一个注意层来从BiRNN层获得隐藏状态的加权和,通过初始化一个上下文向量u
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,包括下述步骤:提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;将来自不同社交网络平台用户各自的最终嵌入进行拼接后输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。2.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,所述节点特征,是对每个用户采用node2vec进行嵌入得到;所述文本特征,是每个用户采用word2vec进行单词级别的嵌入得到。3.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,在提取用户特征的步骤中,将社交网络表示为无向图G(U,E),其中用户表示节点U,边E表示用户之间的社交关系,接着根据无向图G,生成随机游走序列,node2vec使用随机游走来生成节点序列;生成节点序列的步骤产生了许多由节点组成的序列,随后训练嵌入模型,对生成的随机游走序列进行嵌入模型训练;该嵌入模型通过学习将节点的上下文信息映射到嵌入空间中,使用梯度下降算法对嵌入向量进行训练;最后输出节点嵌入作为该节点的表示,即关系嵌入模型的输入X
in
。4.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,在分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入的步骤中,具体为:将得到的节点特征放入到图注意力网络进行嵌入得到用户的关系嵌入;将得到的文本特征放入到带有注意力机制的双向循环神经网络进行嵌入得到用户的文本嵌入T;将得到的用户的关系嵌入和的文本嵌入进行拼接得到用户的最终嵌入表示。5.根据权利要求4所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,对于给定的社交网络N,将用户看成图的节点U,将用户之间的社交关系看作图的边E,图注意力网络由几个堆叠的图注意层组成,对于第i个图注意层,对每个用户节点j,逐个计算用户节点j和其邻居节点k之间的相似系数户节点j和其邻居节点k之间的相似系数其中,W
i
是应用于每个节点的共享权重矩阵,用于对顶点的特征进行增维,a(
·
)表示非线性激活函数,将向量映射到一个实数上,[
·
||
·
]表示将两个向量进行拼接,和是第i个图注意层的用户节点和其邻居节点的特征向量输入,当i=1时,和为
和然后通过[
·
||
·
]将节点j,k变换后的特征进行拼接,通过a(
·
)将拼接后的高维特征映射到一个实数上;计算完用户所有邻居节点的相似系数后,用softmax进行注意力系数的归一化:根据计算好的注意力系数,特征加权求和得到第i层的用户节点嵌入6.根据权利要求4所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,对于给定的用户,将通过得到的文本嵌入输入进一个双向循环神经网络BiRNN中学习每个单词的隐藏状态h
cl
:::其中GRU(
·
)是双向循环社交网络的神经元,控制学习上下文的表示,w
cl
是通过学习得到的单词向量,cl表示用户的第c个发表内容的第l个单词;得到单词的隐藏表示后,引入一个注意层来从BiRNN层获得隐藏状态的加权和,通过初始化一个上下文向量u
w
来计算第c个发表内容中第l个单词的注意力系数β...

【专利技术属性】
技术研发人员:李树栋陈嘉伟吴晓波刘子辰卢丹娜黄倩岚刘文斌
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1