用户身份识别方法、装置及服务器制造方法及图纸

技术编号:22077015 阅读:19 留言:0更新日期:2019-09-12 14:35
本发明专利技术提供了一种用户身份识别方法、装置及服务器,该方法包括:从多个社交网络中获取待识别的未知用户的公开数据;对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。本发明专利技术可以有效提高用户身份识别的准确率。

User Identity Recognition Method, Device and Server

【技术实现步骤摘要】
用户身份识别方法、装置及服务器
本专利技术涉及社交网络
,尤其是涉及一种用户身份识别方法、装置及服务器。
技术介绍
随着互联网的发展,诸如腾讯微博、新浪微博和人人网等多种社交网络出现逐渐在用户的视野中,用户可以活跃于各种社交网络中以不同形象与他人进行交互,产生散布在各个社交网络的独立数据集,例如,用户X在社交网络1中通过账号A与他人交互,在社交网络2中通过账号B与他人交互,在社交网站3中通过账号C与他人交互,所用的不同账号下的信息可能相同或不同,诸如在社交网络1中的名称为“张三”,在社交网络2中的名称为“李四”等,但在社交网络1~3中的性别都设定为“男”,年龄均设定为“28”岁。因此社交网络1、社交网络2和社交网络3中均存在用户X的独立数据集,将用户X的散布于各个社交网络的独立数据集关联起来,对许多数据挖掘分析意义重大。将用户散布于各个社交网络的独立数据关联起来的前提是在各个社交网络中识别出具有同一身份的用户,现有技术中,通常是通过获取用户在社交网站中公开的用户资料判断多个社交网站上的某个账号是否属于同一用户,该方式受公开资料的限制较大,若用户公开资料不准确或者公开资料不全,则将无法准确识别出各个社交网络中具有同一身份的用户,导致用户身份识别准确率较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种用户身份识别方法、装置及服务器,可以有效提高用户身份识别的准确率。第一方面,本专利技术实施例提供了一种用户身份识别方法,包括:从多个社交网络中获取待识别的未知用户的公开数据;对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群的步骤,包括:通过OPTICS(Orderingpointstoidentifytheclusteringstructure)算法或DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述公开数据包括可编辑数据和非编辑数据;所述通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量的步骤,包括:统计所述公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算所述公开数据中可编辑数据的数据相似值;根据所述数据相同数量和所述数据相似值计算所述未知用户的公开数据的相似性度量。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户的步骤,包括:根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值;根据所述相似值,从所述相似用户群中分别识别出具有同一身份的用户。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值的步骤,包括:按照以下公式计算所述相似用户群中每个未知用户针对各所述社交网络的相似值D:其中,Pi表示所述未知用户与已知用户在所述社交网络中第i个时间的关联信息;m表示时间偏置;difference(Pi,P′i±m)表示所述未知用户针对各所述社交网络的关联差异值;L表示Pi的个数。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值的步骤,还包括:根据所述关联信息和通过Jaccard(Jaccardsimilaritycoefficient,杰卡德相似系数)系数,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值。第二方面,本专利技术实施例还提供一种用户身份识别装置,包括:数据获取模块,用于从多个社交网络中获取待识别的未知用户的公开数据;聚类模块,用于对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;关联信息获取模块,用于分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;识别模块,用于根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述聚类模块还用于:通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群。第三方面,本专利技术实施例还提供一种服务器,所述服务器包括存储器以及处理器,所述存储器用于存储支持处理器执行第一方面至第一方面的第五种可能的实施方式任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。第四方面,本专利技术实施例还提供一种计算机存储介质,用于储存为第一方面至第一方面的第五种可能的实施方式任一项所述方法所用的计算机软件指令。本专利技术实施例带来了以下有益效果:本专利技术实施例提供的用户身份识别方法、装置及服务器,首先从多个社交网站中获取待识别的未知用户的公开数据,并通过对未知用户的公开数据进行聚类分析从而得到至少一个相似用户群,再获取每个未知用户与各社交网络中已知用户的关联信息,从而基于关联信息识别出具有同一身份的用户。本专利技术实施例首先对公开数据进行聚类处理,筛选出具有相似特性的用户群,可以在一定程度上提高用户身份识别的准确率;另外,获取预设时间间隔内未知用户与已知用户的关联信息,基于用户之间的关联信息识别用户身份,可以有效缓解用户公开数据对身份识别的限制,同时利用时间对用户身份识别的影响,可以进一步提高用户身份识别的准确率。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种用户身份识别方法的流程示意图;图2为本专利技术实施例提供的另一种用户身份识别方法的流程示意图;图3为本专利技术实施例提供的一种社交指纹的示意图;图4为本专利技术实施例提供的一种用户身份识别装置的结构示意图;图5为本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然本文档来自技高网...

【技术保护点】
1.一种用户身份识别方法,其特征在于,包括:从多个社交网络中获取待识别的未知用户的公开数据;对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。

【技术特征摘要】
1.一种用户身份识别方法,其特征在于,包括:从多个社交网络中获取待识别的未知用户的公开数据;对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。2.根据权利要求1所述的方法,其特征在于,所述对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群的步骤,包括:通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群。3.根据权利要求2所述的方法,其特征在于,所述公开数据包括可编辑数据和非编辑数据;所述通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量的步骤,包括:统计所述公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算所述公开数据中可编辑数据的数据相似值;根据所述数据相同数量和所述数据相似值计算所述未知用户的公开数据的相似性度量。4.根据权利要求1所述的方法,其特征在于,所述根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户的步骤,包括:根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值;根据所述相似值,从所述相似用户群中分别识别出具有同一身份的用户。5.根据权利要求4所述的方法,其特征在于,所述根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值的步骤,包括:按照以下...

【专利技术属性】
技术研发人员:王晓袁春峰纪翀
申请(专利权)人:南京中孚信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1