一种面向社交网络的链接预测系统及方法技术方案

技术编号:15289799 阅读:113 留言:0更新日期:2017-05-10 16:51
本发明专利技术请求保护一种面向社交网络的链接预测系统及方法,属于数据挖掘、社交网络分析领域。基于在线用户以及用户好友关系网络,分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,构建社交网络链接预测模型。首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;其次,利用高斯加权对标准LDA进行改进,提高主题表达能力;最后,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,综合用户行为特征和网络结构特征进行链接预测。更充分地考虑共邻用户间的相互依赖关系,综合用户行为特征和网络结构特征进行链接预测,并发现链接建立的关键因素。

Link prediction system and method for social network

The invention relates to a link prediction system and a method for a social network, which belongs to the field of data mining and social network analysis. Based on the online user and the user's friend relationship network, this paper constructs the social network link prediction model from three aspects of the user's interest, information interaction and common neighbor. First of all, according to the characteristics of a plurality of interest label users in a social network, modeling the user behavior using the LDA topic model, a user behavior subject distribution; secondly, the standard of LDA was improved by using weighted Gauss, improve the subject expression ability; finally, through the introduction of hidden Naive Bayesian definition of common neighbors' contribution to algorithm. The comprehensive characteristics of user behavior and network structure of link prediction. More fully consider the interdependence between the neighboring users, the user behavior characteristics and network structure characteristics of the link prediction, and found that the key factors of link establishment.

【技术实现步骤摘要】

本专利技术涉及数据挖掘、社交网络分析领域,涉及用户关系分析,尤其是一种面向社交网络的链接预测方法。
技术介绍
随着计算机信息技术的不断发展和互联网的迅速普及,社交网络得到了越来越多人的参与和关注。近几年来,社交网站已逐渐成为信息传播与分享的重要途径,用户留下的相关信息让社交网络成为一个巨大的信息平台,对这些海量数据的挖掘成为了研究热点。其中,对于社交网络中的用户关系分析的研究,可以帮助人们更好地解释网络结构的演化与发现。现阶段,对于社交网络中的用户关系分析有着不同方面的研究,主要包括用户关系预测以及用户关系强度等方面的研究,所使用的方法包括基于节点相似度的分析,基于概率模型的分析以及基于最大似然估计的分析。其中,基于节点相似度的分析,它存在一个假设前提,即任意两个不相连的节点越相似,越可能产生链接。例如:共同邻居指标(CN)、节点邻居类型的优先链接指标(PA)、Adamic/Adar指标(AA)、Jaccard系数、Katz等;基于概率模型的分析,主要是通过构建一个含一组可调参数的模型,然后采用优化策略找到最优的参数值,从而使得所得到的模型能够很好地重现网络结构和关系特征。例如:Sarukkai等人在《基于马尔可夫链的链接预测和路径分析》(LinkPredictionandPathanalysisusingMarkovchains)中应用马尔科夫链对网络进行路径分析和链路预测;基于最大似然估计的分析,它比较适用于有层次结构的网络中进行计算,例如:Clauset等人在《网络的层次结构和缺失链接预测》(HierarchicalStructureandthePredictionofMissingLinksinNetworks)中通过建立一个网络层次结构模型,针对具有明显层次特征的网络进行链接预测。以上的研究着重于通过分析网络结构特征,即外部因素来预测链接,但这些方法都没有考虑到用户内部因素对链接产生的影响,如用户属性和用户行为,忽略了网络中用户行为信息之间的潜在兴趣关系。LDA主题模型可以对用户属性信息进行主题提取,并且它适合处理“一词多义”、“多词一义”的问题。Yoon-SikCho等人在《综合社会数据的潜在空间模型》(LatentSpaceModelforMulti-ModalSocialData)中分析全网络中的用户属性和行为,构建一种基于LDA的潜在空间模型,对用户行为进行建模分析,得到关于用户行为的主题分布,从而预测用户关系。但用户对不同用户的关注符合幂律分布,会使得LDA模型的主题分布向高频用户倾斜,应当在LDA模型中采用合适的加权策略,提高主题表达能力。另外,LDA模型没有完全体现出网络结构对链接预测的贡献,实际上共同邻居间存在一定的依赖关系,因此,需要更充分地考虑这种依赖关系,提高链接预测的精准度。
技术实现思路
本专利技术需要解决的技术问题是:现有技术忽略了网络中用户行为信息之间的潜在兴趣关系,对因共同邻居相互链接而产生的依赖关系考虑不足,链接预测的精准度有提高空间。考虑到用户之间的链接建立受到用户内部因素和外部因素的共同作用,内部因素具体在用户行为中体现出来,可表现为用户的兴趣关注和信息交互,而外部因素又表现为用户间共邻用户对链接产生的影响。提出了一种提高链接预测的精准度的面向社交网络的链接预测系统及方法。本专利技术的技术方案如下:一种面向社交网络的链接预测系统,其包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素。进一步的,所述数据源获取模块获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。进一步的,所述兴趣关注属性包括:用户对感兴趣的用户关注,即用户的关注列表,定义用户ux的兴趣关注向量为其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数;信息交互属性包括:用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互,定义用户ux的信息交互向量为其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数;共邻用户属性包括:用户间的共同好友,这里的好友指的是相互关注关系,定义用户ux与用户uy的共邻用户向量为其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户,Qxy表示用户ux与用户uy的共邻用户个数。进一步的,所述模型构建模块:用于针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征;利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征;针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征;将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素。进一步的,所述获取用户兴趣关注特征包括:统计社交网络中注册用户所关注的所有用户,并统计关注的用户的出现频率;针对每个用户,采用高斯加权公式对用户关注的每个用户wx,n加权其中表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率;给定参数K作为用户兴趣关注的主题数,采用改进的LDA主题模型训练所有注册用户,得到用户兴趣关注的主题分布Θ。采用余弦相似度计算两两用户间基于兴趣关注的相似度,得到用户兴趣关注的相似度矩阵R1,将基于兴趣关注的相似度作为用户兴趣关注特征。进一步的,所述获取用户信息交互特征包括:获取用户兴趣关注特征,给定参数K'作为用户信息交互的主题数,采用LDA主题模型训练所有注册用户,得到用户信息交互的主题分布Θ';采用余弦相似度计算两两用户间基于信息交互的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。进一步的,所述获取网络结构特征包括:假设共邻用户间的依赖关系分为两种,独立依赖关系和联合依赖关系,独立依赖关系指的是共邻用户受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户受其他多个共邻用户的共同影响,采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户间基于网络结构的相似度,得到网络结构的相似度矩阵R3,将网络结构的相似度作为网络结构特征。一种面向社交网络的链接预测方法,其包括以下步骤:首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;其次,考虑到用户对不同用户的关注符合幂律分布,利用高本文档来自技高网
...
一种面向社交网络的链接预测系统及方法

【技术保护点】
一种面向社交网络的链接预测系统,其特征在于,包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素。

【技术特征摘要】
1.一种面向社交网络的链接预测系统,其特征在于,包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素。2.根据权利要求1所述的面向社交网络的链接预测系统,其特征在于,所述数据源获取模块获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。3.根据权利要求1所述的面向社交网络的链接预测系统,其特征在于,所述兴趣关注属性包括:用户对感兴趣的用户关注,即用户的关注列表,定义用户ux的兴趣关注向量为其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数;信息交互属性包括:用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互,定义用户ux的信息交互向量为其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数;共邻用户属性包括:用户间的共同好友,这里的好友指的是相互关注关系,定义用户ux与用户uy的共邻用户向量为其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户,Qxy表示用户ux与用户uy的共邻用户个数。4.根据权利要求1或2或3所述的面向社交网络的链接预测系统,其特征在于,所述模型构建模块:用于针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征;利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征;针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征;将上述三种特征一起流入分类器,通过训练分...

【专利技术属性】
技术研发人员:肖云鹏李茜曦刘宴兵柳靓云李晓娟张克毅赵金哲孙华超
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1