本发明专利技术公开了一种基于社区发现的跨社交网络用户身份识别方法,首先分别从两个社交网络中爬取各自用户数据,然后分别对两个社交网络进行社区划分,计算两个社交网络所划分社区的相似度,在计算某个用户与另一社交网络中用户相似度时,只计算该用户与该用户所在社区相似度最高社区内用户的相似度,该用户与其余用户的相似度记为0,根据所得到的用户相似度对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。发明专利技术通过对社交网络进行社区划分,将大规模社交网络的用户身份识别转化为小规模社交网络的用户身份识别,从而简化用户识别过程,以解决大规模用户数据情况下,用户身份识别率低的问题。
【技术实现步骤摘要】
基于社区发现的跨社交网络用户身份识别方法
本专利技术属于社交网络
,更为具体地讲,涉及一种基于社区发现的跨社交网络用户身份识别方法。
技术介绍
Web3.0技术的广泛应用促进了社交网络(SocialNetwork,SN)的飞速发展,越来越多的用户开始参与其中,并进行信息交互。根据2020年最新的统计报告可知,大约在Facebook上每月有24.98亿个活跃用户,11.65亿个活跃用户在微信上。由于各大社交网络应用场景和功能的不同,人们逐渐开始使用不同的社交网络来满足自身的社交需求。如人们通过QQ、微信与身边的好友保持沟通;通过微博、Twitter来对热点新闻进行关注;通过LinkedIn来建立职场上的人脉关系;通过知乎来答疑解惑,分享对事物的见解。用户身份识别也称为用户身份解析。已有的相关工作基本上采用用户档案信息、网络拓扑结构信息以及用户行为信息这三类用户信息来进行用户身份识别。基于用户档案信息的研究主要聚焦在用户的基本信息上,例如,用户名、性别、兴趣等。然而,随着社交网络的发展和用户隐私意识的提高,这些基本信息获取较难且代价较高,并在识别过程中,这类用户信息存在伪造性,对用户身份识别的性能影响较大。基于网络拓扑结构信息的相关研究主要聚焦在用户的好友网络上,利用用户与邻居节点之间的关系来识别用户身份。然而,社交网络具有异构性且部分用户不愿意公开自己的好友网络,因此,识别性能需要进一步提高。基于用户行为信息的研究主要聚焦在用户发布内容上,该类用户信息相较于其它两种信息容易获取且具有高访问性,更重要的一点是,该类信息可以个性化的映射出用户的行为习惯。然而,部分用户的发布内容也会出现稀疏性,一定程度上影响了用户身份识别的性能。目前虽然业内已经提出了许多方法来进行社交网络之间的用户身份识别,但是经研究发现,随着社交网络用户数据规模的扩大,这些方法对于用户身份识别的准确率都存在不同程度的降低,呈现用户身份识别准确率与用户数据规模负相关的态势。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于社区发现的跨社交网络用户身份识别方法,通过社区划分简化用户识别,提高大规模用户数据情况下用户身份识别准确率。为实现上述专利技术目的,本专利技术基于社区发现的跨社交网络用户身份识别方法包括以下步骤:S1:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的数据,记两个社交网络中用户数量分别为NA和NB;S2:分别对社交网络A和社交网络B进行社区划分;S3:计算社交网络A中的每个社区与社交网络B中每个社区的相似度;S4:对于社交网络A中的每个用户i,采用以下方法计算其与社交网络B中用户的相似度:首先获取用户i在社交网络A中所属的社区ai,从社交网络B中所有社区中搜索与社区ai相似度最高的社区记为bi,根据步骤S1爬取的用户数据,计算得到用户i与社区bi中所有用户的相似度,将用户i与社交网络B中社区bi以外所有用户的相似度记为0;S5:根据步骤S4得到的社交网络A中各个用户和社交网络B中各个用户的相似度对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。本专利技术基于社区发现的跨社交网络用户身份识别方法,首先分别从两个社交网络中爬取各自用户数据,然后分别对两个社交网络进行社区划分,计算两个社交网络所划分社区的相似度,在计算某个用户与另一社交网络中用户相似度时,只计算该用户与该用户所在社区相似度最高社区内用户的相似度,该用户与其余用户的相似度记为0,根据所得到的用户相似度对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。本专利技术通过对社交网络进行社区划分,将大规模社交网络的用户身份识别转化为小规模社交网络的用户身份识别,从而简化用户识别过程,以解决大规模用户数据情况下,用户身份识别率低的问题。附图说明图1是本专利技术基于社区发现的跨社交网络用户身份识别方法的具体实施方式流程图;图2是五种类型边的示例图;图3是哈希表table-in和哈希表table-out的示例图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。实施例图1是本专利技术基于社区发现的跨社交网络用户身份识别方法的具体实施方式流程图。如图1所示,本专利技术基于社区发现的跨社交网络用户身份识别方法的具体步骤包括:S101:获取用户数据:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的数据,记两个社交网络中用户数量分别为NA和NB。S102:社区划分:分别对社交网络A和社交网络B进行社区划分。对于社交网络的社区划分而言,其理想的状态就是充分的考虑网络拓扑结构和用户节点自身具有的属性。用户的网络拓扑结构一般情况下可以决定所发现社区结构具有的全局属性,而用户节点自身的属性特征则在局部微调的过程中发挥重要的作用。现有的社区发现算法均未充分考虑到节点自身属性的重要性。尽管某一个算法获取了较高的模块度,但缺少对用户节点之间相关性的论述,故仍可能导致用户节点划分错误的问题。因此,针对上述问题,本实施例采用了基于节点相似性的社区发现算法来对大规模的用户数据集进行精准的社区划分。本实施例中基于节点相似性的社区发现算法的具体方法如下:对于需要进行社区划分的社交网络,分别计算每两个用户节点之间的相似性,其计算公式如下:其中,Sim(i,j)表示社交网络中用户节点i和用户节点j之间的相似度,e1表示用户节点i和用户节点j之间直接连接的边的数量,记用户节点i和用户节点j的公共邻居用户节点集合为φ,e2表示公共邻居用户节点集合φ中用户节点之间直接连接的边的数量,e3表示公共邻居用户节点集合φ中用户节点和用户节点i、用户节点j直接连接的边的数量,e4表示同时和公共邻居用户节点集合φ中用户节点、用户节点i存在直接连接的边以及同时和公共邻居用户节点集合φ中用户节点、用户节点j存在直接连接的边的数量,e5表示公共邻居用户节点集合φ中用户节点和其他不与用户节点i、用户节点j直接连接的用户节点之间直接连接的边的数量,w1、w2、w3、w4、w5表示不同类型的边数量所预先设置的权重,且满足w1>w2>w3>w4>w5。根据所计算得到的用户节点相似性对用户节点进行层次聚类,将所得到的每个类中的用户所构成的子网络作为一个社区,从而完成社交网络的社区划分。图2是五种类型边的示例图。如图2所示,在计算用户节点i和用户节点j之间的相似度时,e1=1,e2=1,e3=4,e4=1,e5=2。通过把边分为五种类型,在考虑用户节点之间的关系以及用户节点之间的公共邻居关系以外,还考虑了多跳用户节点之间的关系,可以令所计算得到的用户节点相本文档来自技高网...
【技术保护点】
1.一种基于社区发现的跨社交网络用户身份识别方法,其特征在于,包括以下步骤:/nS1:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的数据,记两个社交网络中用户数量分别为N
【技术特征摘要】
1.一种基于社区发现的跨社交网络用户身份识别方法,其特征在于,包括以下步骤:
S1:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的数据,记两个社交网络中用户数量分别为NA和NB;
S2:分别对社交网络A和社交网络B进行社区划分;
S3:计算社交网络A中的每个社区与社交网络B中每个社区的相似度;
S4:对于社交网络A中的每个用户i,采用以下方法计算其与社交网络B中用户的相似度:
首先获取用户i在社交网络A中所属的社区ai,从社交网络B中所有社区中搜索与社区ai相似度最高的社区记为bi,根据步骤S1爬取的用户数据,计算得到用户i与社区bi中所有用户的相似度,将用户i与社交网络B中社区bi以外所有用户的相似度记为0;
S5:根据步骤S4得到的社交网络A中各个用户和社交网络B中各个用户的相似度对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。
2.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S2中社区划分的具体方法为:
对于需要进行社区划分的社交网络,分别计算每两个用户节点之间的相似性,其计算公式如下:
其中,Sim(i,j)表示社交网络中用户节点i和用户节点j之间的相似度,e1表示用户节点i和用户节点j之间直接连接的边的数量,记用户节点i和用户节点j的公共邻居用户节点集合为φ,e2表示公共邻居用户节点集合φ中用户节点之间直接连接的边的数量,e3表示公共邻居用户节点集合φ中用户节点和用户节点i、用户节点j直接连接的边的数量,e4表示同时和公共邻居用户节点集合φ中用户节点、用户节点i存在直接连接的边以及同时和公共邻居用户节点集合φ中用户节点、用户节点j存在直接连接的边的数量,e5表示公共邻居用户节点集合φ中用户节点和其他不与用户节点i、用户节点j直接连接的用户节点之间直接连接的边的数量,w1、w2、w3、w4、w5表示不同类型的边数量所预先设置的权重,且满足w1>w2>w3>w4>w5;
根据所计算得到的用户节点相似性对用户节点进行层次聚类,将所得到的每个类中的用户所构成的子网络作为一个社区,从而完成社交网络的社区划分。
3.根据权利要求2所述的跨社交网络用户身份识别方法,其特征在于,所述对于需要进行社区划分的社交网络建立用于存储节点入射边信息的哈希表table-in和用于存储节点出射边信息的哈希表table-out;在哈希表table-in和哈希表table-out中,其关键码值(keyvalue)为边对应源用户节点i和目的用户节点j所...
【专利技术属性】
技术研发人员:邢玲,邓凯凯,高建平,吴红海,张明川,吴庆涛,
申请(专利权)人:河南科技大学,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。