融合社交关系和命名特征的跨社交媒体账户匹配方法组成比例

技术编号:19965180 阅读:25 留言:0更新日期:2019-01-03 13:18
本发明专利技术公开了一种融合社交关系和命名特征的跨社交媒体账户匹配方法,包括以下步骤:S1、找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将做笛卡尔乘积,作为候选账户对;S3、进行预处理,取特征形成特征向量;S4、将特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点执行步骤S2~S4的操作,直至种子用户集合中没有新账户加入为止。本发明专利技术的方法降低了计算复杂度,将最终判定为不关联的用户的提取特征并进行分类判决的计算称为无效计算,大幅降低了无效计算在整个计算过程中的比例,提高了效率。

Cross-Social Media Account Matching Method Integrating Social Relations and Naming Features

The invention discloses a cross-social media account matching method which integrates social relations and naming features, including the following steps: S1, identifying users who give corresponding accounts in account information to other platforms as seed user set; S2, extracting a pair of account information from seed user set, extracting the accounts of friends in corresponding platforms respectively, and doing Cartesian product, and making a seed user set. For candidate account pairs; S3, preprocessing, extracting features to form feature vectors; S4, input feature vectors into classifier to distinguish, and add accounts that belong to the same person entity to seed node set; S5, perform operations of 2-S4 for all seed nodes until no new account is added to seed user set. The method of the present invention reduces the computational complexity, and calls the calculation of extracting features and classifying decisions of users who are ultimately judged to be unrelated as invalid calculation, which greatly reduces the proportion of invalid calculation in the whole calculation process and improves the efficiency.

【技术实现步骤摘要】
融合社交关系和命名特征的跨社交媒体账户匹配方法
本专利技术涉及一种融合社交关系和命名特征的跨社交媒体账户匹配方法。
技术介绍
对于跨社交媒体的账户匹配问题,通常将其建模为一个分类问题:在给定两个用户a、b分别属于社交媒体平台A和B,研究的目的就是获得一个分类判别函数,当输入用户a和b的信息后,如果两个用户属于同一人物实体则输出1,否则输出0,如下公示所示:跨社交媒体的人物识别方法对于数据挖掘的研究具有非常重大的意义,可以作为多种研究的前提。现有跨社交媒体用户匹配方法的主要思想是把用户匹配转换为个二分类问题,结合文档、内容和网络等多种特征,并采用有监督学习的方法进行求解。但是现有方法还存在两方面的问题:第一,分类模型的泛化能力差。现有研究主要着眼于特征构建以及模型选择,对于训练集和测试集构建通过挑选账户中主动提供了其它社交平台账号的用户作为正例,并在此基础上把正例中已知的匹配关系随机打乱获得负例,这种方式的缺陷是负例数据随机性较大,训练集中处于决策边界的样本数较少,导致构建的分类器不够准确。第二,无法适用于实际应用。跨社交媒体用户匹配的使用场景通常是已知不同社交媒体账号的集合,需要将两个集合中相互对应的账号进行匹配,现有的方法通过基于聚类和模糊匹配,通常需要将不同账号集合中的账号进行依次相互比较,存在计算复杂度过高的问题,无法将该方法推广到实际海量社交媒体账号匹配。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种降低了计算复杂度,将最终判定为不关联的用户的提取特征并进行分类判决的计算称为无效计算,这一策略大幅降低了无效计算在整个计算过程中的比例,提高了效率,加快关联用户发现的速度的融合社交关系和命名特征的跨社交媒体账户匹配方法。本专利技术的目的是通过以下技术方案来实现的:融合社交关系和命名特征的跨社交媒体账户匹配方法,包括以下步骤:S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对,做笛卡尔乘积,形成潜在关联用户配对,作为候选账户对;S3、对S2获得的候选账户对进行预处理,取特征形成特征向量;S4、将步骤S3抽取的特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点执行步骤S2~S4的操作,直至种子用户集合中没有新账户加入为止。进一步地,所述步骤S4中训练分类器的具体实现方法为:S41、根据种子用户构建训练集;S42、用训练集训练一个初始的分类器;S43、通过寻找在账户中给出了对方平台账号的用户对作为分类器训练集的正例,通过交叉组合的方法构建一个负例验证集;S44、将负例验证集输入初始分类器进行分类,将分类结果中的负例加入到训练集中,使得训练集中正负实例的比例为1:4;S45、用新训练集重新训练分类器。本专利技术的有益效果是:本专利技术提出了一个实用的关联用户发现框架,结合用户连接关系提高了在大规模数据集中下用户搜索的效率,通过对训练集的采样再扩充过程并结合集成学习算法,提高了分类模型的准确率和泛化能力。具体来说:通过在种子用户数据集(已知的属于同一个人实体的账号信息)的直接好友关系出发,进行潜在用户关联配对的生成的策略,可以获得如下有益效果:1、降低了计算复杂度,将最终判定为不关联的用户的提取特征并进行分类判决的计算称为无效计算,这一策略大幅降低了无效计算在整个计算过程中的比例,提高了效率,加快关联用户发现的速度。2、通过在缩小搜索范围减少了同名的个人实体对于识别结果的影响。用户好友中出现用户名相同的好友的可能性非常小,因此在用户的直接好友关系中结合用户名进行关联判决还能解决相同名字的不同个人实体的消岐问题,进一步提高识别效果。3、提高了分类模型的泛化能力。通过将用典型的错误分类结果扩充分类器训练集重复训练分类器,提高分类准确率的同时,模型泛化能力得到了增强,模型在实际的应用场景中的表现变得更加优秀。附图说明图1为本专利技术的融合社交关系和命名特征的跨社交媒体账户匹配方法的流程图;图2为本专利技术的潜在关联用户配对原理图。具体实施方式本专利技术提出一种融合社交关系和命名特征的用户关联匹配的方法,该方法利用用户关系网络缩小预匹配用户范围,减小账号匹配过程中的计算量;并针对现有方法训练集构建不够理想的问题,提出通过迭代训练的方式将每次分类时容易被分错的样本加入训练集,提高处于分类器边界的样本比例,同时结合集成学习的方法,能够准确、高效地完成跨社交媒体用户账号匹配。流程上总体分为两个部分,潜在关联用户配对生成和用户关联结果判定。潜在关联用户配对生成找出需要对哪些账号进行关联判别,我们可以将这一过程称之为预匹配;用户关联结果判定则负责训练出可靠的分类器,同时对预匹配的用户配对作出最终判别。设两个社交平台用户数据集分别为A和B,我们的目标是找出一个用户配对集合Pairs={(s1,s2)|s1∈A,s2∈B}使得这个集合的规模尽量小,并且最后输入分类器判定为正类的配对尽可能高。我们将这一过程称为潜在关联用户配对生成。我们定义计算效率如下:match_pairs={(s1,s2)|(s1,s2)∈Pairs,s1=s2}(2-2)如果直接将两个集合相乘得到一个笛卡尔积,那么|Pairs|=|A|×|B|,则整个流程中的计算复杂度将变成Θ(n2),其中有大量的无效运算,假设两个集合的用户数都为N,则计算效率为1/N,当数据集规模上亿时,这个效率是无法忍受的。现有的方法主要采取聚类算法和模糊匹配用于大数据集情况下的用户发现,这类方法的计算复杂度仍然为Θ(n2),对于计算效率并没有实质上的提高。因此为了提高计算效率,我们需要首先找到最有可能属于同一人物实体的账户对,我们称这一过程为预匹配。在社交媒体相关的研究中,用户的连接关系可以根据链接的完整性和连通性分为两种类型,局部连接和全局连接。局部连接关系只利用用户的第一条连接关系,即直接的好友关系。全局连接则使用多跳关系形成的网络信息为用户关联识别提供依据。但是直接利用这些链接信息作为属性输入分类模型获得的信息增益少,同时图算法的计算复杂度通常也较高。因此我们不把用户的好友连接关系作为特征用在分类器中,而是通过在已经匹配的两个账号的好友内进行匹配,减小计算量。本方案是基于这样一种假设:人物实体在现实中的社会关系会在一定程度上映射到他所在的社交媒体平台上。举例来说就是,我们在现实世界中的朋友我们在QQ、微信上加为好友,同时也可能在微博上互相关注。这种映射存在一定的随机性,例如我们可能并没有在微博上关注这些好友,在微博上关注的用户也许在现实中也没有交集,因此用这些信息计算相似性并不可靠。但是我们可以通过这种方式来减少上面定义的Pairs,从而提高计算效率。下面结合附图进一步说明本专利技术的技术方案。如图1所示,融合社交关系和命名特征的跨社交媒体账户匹配方法,包括以下步骤:S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、如图2所示,从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对(图中黑色连线),做笛卡本文档来自技高网...

【技术保护点】
1.融合社交关系和命名特征的跨社交媒体账户匹配方法,其特征在于,包括以下步骤:S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对,做笛卡尔乘积,形成潜在关联用户配对,作为候选账户对;S3、对S2获得的候选账户对进行预处理,取特征形成特征向量;S4、将步骤S3抽取的特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点执行步骤S2~S4的操作,直至种子用户集合中没有新账户加入为止。

【技术特征摘要】
1.融合社交关系和命名特征的跨社交媒体账户匹配方法,其特征在于,包括以下步骤:S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对,做笛卡尔乘积,形成潜在关联用户配对,作为候选账户对;S3、对S2获得的候选账户对进行预处理,取特征形成特征向量;S4、将步骤S3抽取的特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点...

【专利技术属性】
技术研发人员:费高雷杨立波于富财胡光岷张乐中
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1