融合用户特征和嵌入学习的跨社交网络用户身份关联方法技术

技术编号:28559204 阅读:21 留言:0更新日期:2021-05-25 17:53
本发明专利技术公开一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。本发明专利技术针对每一个种子用户对根据网络的拓扑结构选出候选用户对;然后获取每个用户的结构嵌入向量,将多层感知机模型作为映射函数;在候选用户对集合中对多种属性通过计算得到属性匹配度;再计算SMN

【技术实现步骤摘要】
融合用户特征和嵌入学习的跨社交网络用户身份关联方法
本专利技术涉及社交网络的用户关系挖掘领域。尤其是涉及一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。
技术介绍
自媒体时代越来越多的用户开始习惯在社交网络(SocialMediaNetwork,SMN)上实现日常的互动和信息的获取。现今,社交网络个数已达上百个,且种类繁多,典型的如校园类的人人网、开心网,学习类的知乎网等,综合类的如MySpace、Twitter和Facebook等。人们为了享受不同网站提供的服务往往需要注册为该网站的用户。普通用户拥有多个不同社交网站的帐号是较普遍的情况。用户可以在Foursquare上用手机与别人分享地理位置信息进行交流,也可以在MySpace上交友、分享个人信息并进行即时通讯。每个用户若在不同的社交网络注册,将在不同的社交网站包含其个人信息(如年龄,工作单位,毕业院校等等),以及发表的文本内容,发布的视频、图像等多媒体信息,以及在自己感兴趣内容下的评论、转发等。对这些信息进行整合、分析,将构成用户完整的个人画像。现有的社交网络与社交网络之间由于功能不同,因此往往是相互独立的,而且针对同一用户在不同网络上的注册信息缺乏有效的管理平台进行统一管理。为了分析某用户甚至群体用户在社交网络上的行为,获取用户的完整图像(profile),需要整合用户在不同社交网络上的数据,其突破口在于跨社交平台的用户身份匹配,即识别用户在多个社交网络上的帐号。跨社交平台的身份匹配对商业上的信息服务推送、好友推荐以及网络安全治理有极其重要的意义。同一用户在不同社交网络注册时往往会填报相同或相似的属性信息,如相同的用户名,相同的性别、生日等信息。这些信息为跨社交网络的身份匹配提供了一定的表面特征条件。但是,表面特征信息往往存在稀疏性、内容缺失以及部分属性与事实不符等特征,因此单纯依靠表征特征会提升匹配的错误率。此外,现阶段的社交网络都具备大数据特点,现有的监督式学习方法往往需要大量的标注数据集,而庞大的标注数据集在现有的条件下很难获取,这就需要用小部分的标注数据集进行训练。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。本专利技术所采用的技术方案包括以下步骤:步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior;步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。进一步,所述的步骤1具体实现如下:1-1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;1-2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。进一步,所述的步骤2的具体实现过程如下:2-1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:基于此,社交网络SMNA嵌入学习的目标函数:其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;2-2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:基于此,社交网络SMNB嵌入学习的目标函数为:其中,EB为社交网络SMNB中边的用户关系;;2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):其中,对边(UAi,UAj)建模,对负采样边(UAi,UAk)建模,N代表负采样边的个数,设定N=5;针对负采样边的生成,即在选取了UAi后,如何选取另外一个节点形成负采样边,采用目前通用的负采样方法确定噪声分布pn(U)如下:其中,dU代表节点U的度;基于噪声分布pn(U),采样N个节点与节点UAi构成N条负采样边;按照同样方法计算logp(UBj,UBi):2-4.学习到所有节点的嵌入向量后,根据种子用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数给定zAi∈ZA,映射函数将向量zAi映射到向量空间ZB;其中,θ代表映射函数的参数集合;利用多层感知器模型构建非线性映射函数获得向量空间ZA到向量空间ZB的映射关系;设计的多层感知器模型包括输入层、隐藏层和输出层;隐藏层单元个数设定为2*d,d为输入层个数,即向量zAi的维度;将种子用户对的结构嵌入向量作为训练数据,对MLP模型进行训练。进一步,所述的步骤3的具体实现过程如下:设UAi和UBj分别为两个社交网络中的先验种子用户,即UAi和UBj代表不同网络中的同一用户;如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl本文档来自技高网
...

【技术保护点】
1.融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于包括如下步骤:/n步骤1.给定社交网络SMN

【技术特征摘要】
1.融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于包括如下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior;
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。


2.根据权利要求1所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤1具体实现如下:
1-1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;
1-2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。


3.根据权利要求2所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:



基于此,社交网络SMNA嵌入学习的目标函数:



其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;
2-2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:



基于此,社交网络SMNB嵌入学习的目标函数为:



其中,EB为社交网络SMNB中边的用户关系;;
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:



为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法...

【专利技术属性】
技术研发人员:王李冬安康张慧熙胡克用叶霞刘军
申请(专利权)人:杭州师范大学钱江学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1