当前位置: 首页 > 专利查询>广州大学专利>正文

基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置制造方法及图纸

技术编号:36955573 阅读:13 留言:0更新日期:2023-03-22 19:16
本发明专利技术公开了一种基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置,方法包括:对不同平台的社交网络的用户名、用户发表的文本以及用户社交关系进行特征提取,分别得到用户不同模态的特征信息;根据所述的特征信息,利用注意力机制进行多模态融合,得到一个融合多维度特征的第一用户表示;将所述的第一用户表示通过表示对齐加强用户表示,最终得到不同平台具有同一分布的第二用户表示;计算所述的第二用户表示之间的余弦相似性,得到用户之间的相似性得分,并将得分最高的用户对作为身份关联结果。本发明专利技术通过多模态融合与表示对齐的方法解决单一模态模型不能完整地描述用户问题以及不同社交平台存在分布差异的问题。问题。问题。

【技术实现步骤摘要】
基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置


[0001]本专利技术属于社交网络虚拟身份关联
,具体涉及一种多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置。

技术介绍

[0002]如今,社交网络以其高度的便捷性成为了人们生活中不可或缺的一部分。通常,人们喜欢加入多个社交平台享受不同的服务,如使用微信进行交流,使用微博看新闻或者是打卡。因此,有不少学者致力于社交网络相关的研究,而跨社交网络虚拟身份关联作为其中重要部分,目的是识别出同一自然人在不同平台的社交账号,已经在推荐系统、用户行为分析、信息传播等领域引起了高度重视。
[0003]事实上,已经有不少的方法被提出应用在用户身份链接上,现阶段的方法可以分为大三类:基于用户属性的方法、基于用户生成内容的方法以及基于用户社交关系的方法。但这些方法都存在一定的缺陷。对于用户属性,出于隐私的原因,用户有选择地公开个人资料属性,并将一些敏感信息(如年龄或联系方式)保密,甚至可能会伪造或模仿信息,增加了信息的不确定性和模糊性。由于社交网络的丰富性,用户发表的帖子会存在多种多样的形式(文字、图片等),若只使用单一的内容会造成信息损失。基于用户之间的社交关系进行研究,现有方法太过强调结构化的信息,但在社交网络中用户好友的特征对于识别用户也是有很大帮助的,毕竟有时好友的特征可能比用户本身的特征更具独特性,要是把其好友的特征考虑进来,那准确率将大大提高。因此,应该利用多模态的用户信息,而不局限于单一模态信息。另一方面,模态与模态之间刻画用户的置信度是不一样的。有时候用户的文本会比其他模态传达更多的信息,而有时候图片也会起到关键作用。因此,自适应地表征不同的模式是解决该问题的关键。
[0004]其次,虽然同一用户可能在不同的社交平台发布相似的信息,但由于平台之间数据分布不一致,这些类似的信息也可能存在不同的表征。但现有方法往往直接根据他们的表示进行用户身份链接,而没有考虑他们之间的语义差距。因此,如何使同一用户在不同平台的表示接近是另一大挑战。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置,通过多模态融合与表示对齐的方法解决单一模型不能完整地描述用户问题以及不同社交平台存在分布差异的问题。
[0006]为了达到上述目的,本专利技术采用以下技术方案:
[0007]第一方面,本专利技术提供了一种基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,包括下述步骤:
[0008]对不同社交网络用户的用户名、用户发表的文本以及用户社交关系进行特征提
取,分别得到用户名特征信息、用户发表的文本特征信息以及用户社交关系特征信息;
[0009]根据所述得到的用户名特征信息、用户发表的文本特征信息以及用户社交关系特征信息,利用注意力机制进行多模态融合,得到一个融合多维度特征的第一用户表示;
[0010]将所述的第一用户表示通过表示对齐方法进行用户表示加强处理,最终得到不同平台具有同一分布空间的第二用户表示;
[0011]计算所述的第二用户表示之间的余弦相似性,得到用户之间的相似性得分,并将得分最高的用户对作为身份关联结果。
[0012]作为优选的技术方案,所述用户名的特征提取,具体为:
[0013]对于给定用户的用户名,利用字符级Bag

of

Words模型进行特征提取,统计每个用户名中每个字符出现的次数,得到向量将得到的所有用户名向量依次拼接得到用户名计数矩阵由于C0是一个稀疏矩阵,为此使用一个自动编码器将其进行转换,转换的公式的具体为:
[0014][0015]其中,W
e
,b
e
为编码器的权重和偏置,W
d
,b
d
为解码器的权重和偏置,C1为解码器用户名向量矩阵,和分别为用户名向量,通过梯度下降不断训练损失函数L
c
,得到最优的W
e
和b
e
,最终得到维度为d的用户名嵌入矩阵
[0016]作为优选的技术方案,所述用户发表的文本的特征提取,具体为:
[0017]将用户发表的文本输入到Word2Vec模型中,得到每条文本的嵌入向量,然后将每个用户所发表文本的嵌入向量取平均作为该用户发表文本的表示,将所有用户的文本嵌入向量依次拼接,得到维度为d的文本嵌入矩阵
[0018]作为优选的技术方案,所述用户社交关系的特征提取,具体为:
[0019]将由平台N1的n个用户和平台N2的m个用户组成的社交关系得到的n
×
m邻接矩阵通过DeepWalk模型得到每个用户社交关系的嵌入向量,将所有用户的社交关系嵌入向量依次拼接,得到维度为d的用户社交关系嵌入矩阵
[0020]作为优选的技术方案,所述多模态融合是将得到的三种用户特征信息的嵌入矩阵,利用注意力机制进行多模态融合,为每个模态赋予不同权重以反映不同模态之间的重要性,经过多模态融合后,得到第一用户表示矩阵Z
f
;计算公式为:
[0021][0022]其中,α
c
,α
T
,α
V
分别用户名、文本、社交关系嵌入矩阵的权重;f(.)为注意力网络。
[0023]作为优选的技术方案,所述表示对齐加强用户表示的具体步骤为:
[0024]首先,将第一用户表示放入一个全连接层,以将两平台的用户表示映射到同一空间当中,得到第二用户表示,所述第二用户表示的计算公式为:
[0025][0026]其中,W
l
,b
l
分别为全连接层权重和偏置,为平台N多模态融合得到的第一用户表示,Z为第二用户表示;
[0027]其次,为训练本方法中的所有权重和偏置,使用最小化EMD距离作为第一优化目标,所述第一优化目标的计算公式为:
[0028][0029][0030]其中,L
E
为第一优化目标,d
ij
为用户的第二用户表示和用户的第二用户表示的距离,F
ij
为用户和用户之间的关联概率,表示F范数的平方;
[0031]此外,通过减少用户对之间的表示距离以及P
ij
和F
ij
之间的差异,设置第二优化目标以更好地指导学习第二用户表示,所述第二优化目标的计算公式为:
[0032][0033]其中,L
R
为第二优化目标,n
p
为已关联用户样本对数量,λ1和λ2为超参数,对于已关联用户样本对,真实关联概率P
ij
=1;
[0034]实现最终的优化目标L是第一优化目标与第二优化目标之和,即:
[0035]L=L
E
+L
R
[0036]最后,通过梯度下降法不断本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,其特征在于,包括下述步骤:对不同社交网络用户的用户名、用户发表的文本以及用户社交关系进行特征提取,分别得到用户名特征信息、用户发表的文本特征信息以及用户社交关系特征信息;根据所述得到的用户名特征信息、用户发表的文本特征信息以及用户社交关系特征信息,利用注意力机制进行多模态融合,得到一个融合多维度特征的第一用户表示;将所述的第一用户表示通过表示对齐方法进行用户表示加强处理,最终得到不同平台具有同一分布空间的第二用户表示;计算所述的第二用户表示之间的余弦相似性,得到用户之间的相似性得分,并将得分最高的用户对作为身份关联结果。2.根据权利要求1所述基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,其特征在于,所述用户名的特征提取,具体为:对于给定用户的用户名,利用字符级Bag

of

Words模型进行特征提取,统计每个用户名中每个字符出现的次数,得到向量将得到的所有用户名向量依次拼接得到用户名计数矩阵由于C0是一个稀疏矩阵,为此使用一个自动编码器将其进行转换,转换的公式的具体为:其中,W
e
,b
e
为编码器的权重和偏置,W
d
,b
d
为解码器的权重和偏置,C1为解码器用户名向量矩阵,和分别为用户名向量,通过梯度下降不断训练损失函数L
c
,得到最优的W
e
和b
e
,最终得到维度为d的用户名嵌入矩阵3.根据权利要求1所述基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,其特征在于,所述用户发表的文本的特征提取,具体为:将用户发表的文本输入到Word2Vec模型中,得到每条文本的嵌入向量,然后将每个用户所发表文本的嵌入向量取平均作为该用户发表文本的表示,将所有用户的文本嵌入向量依次拼接,得到维度为d的文本嵌入矩阵4.根据权利要求1所述基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,其特征在于,所述用户社交关系的特征提取,具体为:将由平台N1的n个用户和平台N2的m个用户组成的社交关系得到的n
×
m邻接矩阵通过DeepWalk模型得到每个用户社交关系的嵌入向量,将所有用户的社交关系嵌入向量依次拼接,得到维度为d的用户社交关系嵌入矩阵5.根据权利要求1所述基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,其特征在于,所述多模态融合是将得到的三种用户特征信息的嵌入矩阵,利用注意力机制进行多模态融合,为每个模态赋予不同权重以反映不同模态之间的重要性,经过多模态融合后,得到第一用户表示矩阵Z
f
;计算公式为:
其中,α
C
,α
T
,α
V
分别用户名、文本、社交关系嵌入矩阵的权重;f(.)为注意力网络。6.根据权利要求1所述基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法,其特征在于,所述表示对齐加强用户表示的具体步骤为:首先,将第一用户表示放入一个全连接层,以将两平台的用户表示映射到同一空间当中,得到第二用户表示,所述第二用户表示的计算公式为...

【专利技术属性】
技术研发人员:李树栋卢丹娜吴晓波韩伟红黄倩岚骆小静唐可可
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1