一种社交网络账号映射模型训练方法及映射方法和系统技术方案

技术编号:11973320 阅读:137 留言:0更新日期:2015-08-28 10:48
本发明专利技术提供一种社交网络账号映射模型训练方法,包括:1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集;2)对每一个账号组合提取账号组合特征向量,包括:该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关系特征,以及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中,那些已知属于同一个自然人的邻居账号对;3)基于机器学习技术进行训练得到社交网络账号映射模型。本发明专利技术还提供了相应的社交网络账号映射方法及系统。本发明专利技术能够减少关系数据稀疏性对映射结果的不利影响,有效地提高社交网络账号映射的准确率。

【技术实现步骤摘要】

本专利技术设及社会计算领域,具体地说,本专利技术设及一种社交网络账号映射方法及 系统。
技术介绍
如今,全球使用社交网络的人越来越多,人们通常会通过多个社交网络展开发布 信息、联系他人等社交行为。不同的社交网络中,属于同一用户的多个账号大多彼此隔离, 它们之间一般没有任何的连接。而该些社交网络没有统一的组织或者连通数据的合作,因 此导致难W获取属于同一用户的账号集合。如果能够获取不同社交网络中属于同一用户的 账号集合,就可W在如链路推荐和基于多个社交网络数据的社区分析等方面提供更有价值 的服务。 目前,对账号映射问题的相关研究中,数据特征主要包括账号属性、账号社交关系 和账号的操作行为=个方面的特征。其中多数相关研究依赖的数据是账号的文本数据与属 性。但仅W文本或属性作为研究的数据来源是不够的,会造成数据严重的稀疏性。而作为一 种新的互动工具,微博上拥有大量的互粉关系数据,可W作为账号的相关数据进行研究,不 仅可W改善数据的稀疏性,还引入账号的社交特点,更易发现账号区别他人的特征。然而, 如果将现有的账号映射方案直接用于跨社交网络的账号对齐中,其准确率和映射概率均存 在不足。 综上所述,当前迫切需要一种能够准确实现跨社交网络的账号映射(即找出属于 同一个自然人的在不同社交网络中的不同账号的映射关系)的解决方案。
技术实现思路
因此,本专利技术的任务是克服上述现有技术的缺陷,提出一种社交网络账号映射解 决方案。 根据本专利技术的一个方面,提供了一种社交网络账号映射模型训练方法,包括下列 步骤: 1)将已知映射的微博S账号集合{U>^, 中的任一个账号与微博t账号集合 (I产 1, ,u>th]中的任一个账号进行组合,得到的h曲个账号组合构成训练集; 2)对于训练集中的每一个账号组合,提取账号组合特征向量,所述账号组合特征 向量包括;该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关 系特征,W及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中, 那些已知属于同一个自然人的邻居账号对; 3)基于机器学习技术构建分类模型,根据训练集中各个账号组合特征向量,W及 训练集中各账号组合已知的映射关系正负例,对分类模型进行训练得到社交网络账号映射 模型。 其中,所述两个账号的扩展共同邻居特征包括:两个账号的扩展共同邻居数量,反 映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征,W及反映扩展共 同邻居的度的特征中的一项或多项。 其中,反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征 为扩展共同邻居的化ccard相似性系数。 其中,所述反映扩展共同邻居的度的特征为两个账号的Adamic/AdarMeasure系 数。 其中,所述账号组合特征向量中的文本特征包括:账号自身的发言中的高频词组 特征。 其中,所述账号组合特征向量中的社交关系特征包括;W账号的互粉账号为等权 值元素所构建的特征向量。 根据本专利技术的另一方面,提供了一种社交网络账号映射方法,包括下列步骤:[001引a)将两个不同微博中未映射的账号集合站,…,的...蜡^及{叫,…,U[ ... 1也}中 的账号两两配对构成测试集; b)对于测试集中的每个账号组合,提取其账号组合特征向量,所述账号组合特征 向量包括;该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关 系特征,W及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中, 那些已知属于同一个自然人的邻居账号对; C)将所提取的账号组合特征向量输入预先训练的社交网络账号映射模型,得到分 类结果,进而得出一个微博中的账号是否与另一微博中的账号映射,W及所映射的账号。 其中,所述步骤C)中,所述社交网络账号映射模型按照前述社交网络账号映射模 型训练方法训练得到。 其中,所述步骤C)还包括;基于预先设定的阔值,根据账号组合的分类结果判断 每个账号是否与另一微博中的账号映射W及所映射的账号。 根据本专利技术的又一方面,提供了一种社交网络账号映射系统,包括:[002引数据收集模块,用于将两个不同微博中未映射的账号集合{Uf, ...,uf…诚};化及 (uti,,uf...l4}中的账号两两配对构成测试集; 特征提取模块,用于提取测试集中的每一个账号组合的账号组合特征向量,所述 账号组合特征向量包括;该账号组合中两个账号各自的文本特征,两个账号在各自所属微 博中的社交关系特征,W及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自 的邻居账号中,那些已知属于同一个自然人的邻居账号对; 分类模块,用于将所提取的账号组合特征向量输入预先训练的社交网络账号映射 模型,得到分类结果,进而得出一个微博中的账号是否与另一微博中的账号映射,W及所映 射的账号。根据本专利技术的又一方面,还提供了另一种社交网络账号映射系统,包括: 数据收集模块,用于将映射关系已知的微博S账号集合中的任一个账号与微博t 账号集合中的任一个账号进行两两组合构成训练集;W及将映射关系未知的微博S账号集 合W及微博t账号集合中的账号两两配对构成测试集; 特征提取模块,用于提取训练集和测试集中的每一个账号组合的账号组合特征向 量,所述账号组合特征向量包括;该账号组合中两个账号各自的文本特征,两个账号在各自 所属微博中的社交关系特征,W及两个账号的扩展共同邻居特征,扩展共同邻居是两个账 号各自的邻居账号中,那些已知属于同一个自然人的邻居账号对; 训练及分类模块,用于基于机器学习技术构建分类模型,根据训练集中各个账号 组合特征向量,W及训练集中各账号组合已知的映射关系正负例,对分类模型进行训练得 到社交网络账号映射模型;W及将所提取的账号组合特征向量输入预先训练的社交网络账 号映射模型,得到分类结果,进而得出一个微博中的账号是否与另一微博中的账号映射,W 及所映射的账号。 与现有技术相比,本专利技术具有下列技术效果: 1、本专利技术能够有效提高账号映射的概率,即减少漏检率。 2、本专利技术能够减少关系数据稀疏性对映射结果的不利影响,有效地提高社交网络 账号映射的准确率。【附图说明】W下,结合附图来详细说明本专利技术的实施例,其中: 图1示出了本专利技术一个实施例的社交网络账号映射模型训练方法的流程图; 图2示出了本专利技术一个实施例的社交网络账号映射方法的流程图;图3示出了本专利技术一个实施例的社交网络账号映射系统的结构示意图。【具体实施方式】 本专利技术首次提出了一种对属于同一个自然人的跨微博(即跨社交网络)的不同账 号映射关系的识别方案,针对跨多个异构的社交网络特征缺乏和关系特征稀疏的问题,发 明人将链路预测技术引入,通过扩展已有关系特征,综合文本特征,结合机器学习算法,实 现了一种当前第1页1 2 本文档来自技高网...

【技术保护点】
一种社交网络账号映射模型训练方法,包括下列步骤:1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集;2)对于训练集中的每一个账号组合,提取账号组合特征向量,所述账号组合特征向量包括:该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关系特征,以及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中,那些已知属于同一个自然人的邻居账号对;3)基于机器学习技术构建分类模型,根据训练集中各个账号组合特征向量,以及训练集中各账号组合已知的映射关系正负例,对分类模型进行训练得到社交网络账号映射模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:许洪波樊茜梁英程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1