The invention discloses a cross-social media account matching method which integrates social relations and naming features, including the following steps: S1, identifying users who give corresponding accounts in account information to other platforms as seed user set; S2, extracting a pair of account information from seed user set, extracting the accounts of friends in corresponding platforms respectively, and doing Cartesian product, and making a seed user set. For candidate account pairs; S3, preprocessing, extracting features to form feature vectors; S4, input feature vectors into classifier to distinguish, and add accounts that belong to the same person entity to seed node set; S5, perform operations of 2-S4 for all seed nodes until no new account is added to seed user set. The method of the present invention reduces the computational complexity, and calls the calculation of extracting features and classifying decisions of users who are ultimately judged to be unrelated as invalid calculation, which greatly reduces the proportion of invalid calculation in the whole calculation process and improves the efficiency.
【技术实现步骤摘要】
融合社交关系和命名特征的跨社交媒体账户匹配方法
本专利技术涉及一种融合社交关系和命名特征的跨社交媒体账户匹配方法。
技术介绍
对于跨社交媒体的账户匹配问题,通常将其建模为一个分类问题:在给定两个用户a、b分别属于社交媒体平台A和B,研究的目的就是获得一个分类判别函数,当输入用户a和b的信息后,如果两个用户属于同一人物实体则输出1,否则输出0,如下公示所示:跨社交媒体的人物识别方法对于数据挖掘的研究具有非常重大的意义,可以作为多种研究的前提。现有跨社交媒体用户匹配方法的主要思想是把用户匹配转换为个二分类问题,结合文档、内容和网络等多种特征,并采用有监督学习的方法进行求解。但是现有方法还存在两方面的问题:第一,分类模型的泛化能力差。现有研究主要着眼于特征构建以及模型选择,对于训练集和测试集构建通过挑选账户中主动提供了其它社交平台账号的用户作为正例,并在此基础上把正例中已知的匹配关系随机打乱获得负例,这种方式的缺陷是负例数据随机性较大,训练集中处于决策边界的样本数较少,导致构建的分类器不够准确。第二,无法适用于实际应用。跨社交媒体用户匹配的使用场景通常是已知不同社交媒体账号的集合,需要将两个集合中相互对应的账号进行匹配,现有的方法通过基于聚类和模糊匹配,通常需要将不同账号集合中的账号进行依次相互比较,存在计算复杂度过高的问题,无法将该方法推广到实际海量社交媒体账号匹配。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种降低了计算复杂度,将最终判定为不关联的用户的提取特征并进行分类判决的计算称为无效计算,这一策略大幅降低了无效计算在整个计算过程中的比例, ...
【技术保护点】
1.融合社交关系和命名特征的跨社交媒体账户匹配方法,其特征在于,包括以下步骤:S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对,做笛卡尔乘积,形成潜在关联用户配对,作为候选账户对;S3、对S2获得的候选账户对进行预处理,取特征形成特征向量;S4、将步骤S3抽取的特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点执行步骤S2~S4的操作,直至种子用户集合中没有新账户加入为止。
【技术特征摘要】
1.融合社交关系和命名特征的跨社交媒体账户匹配方法,其特征在于,包括以下步骤:S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对,做笛卡尔乘积,形成潜在关联用户配对,作为候选账户对;S3、对S2获得的候选账户对进行预处理,取特征形成特征向量;S4、将步骤S3抽取的特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点...
【专利技术属性】
技术研发人员:费高雷,杨立波,于富财,胡光岷,张乐中,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。