一种基于隐链接分析热点话题传播趋势的系统及方法技术方案

技术编号:19009894 阅读:1944 留言:0更新日期:2018-09-22 09:40
本发明专利技术请求保护一种基于隐链接分析热点话题传播趋势的系统及方法,属于社交网络分析领域。包括:首先从现有的基于Web的研究型推荐系统下载或者利用公共API获取用户的相关信息并进行包括数据分片在内的数据处理。其次,建立隐链接。利用社交网络中存在隐性关系,通过用户之间标签相似度、相同话题、文本内容相似性、共同好友四个属性建立隐链接,并利用隐链接和显链接建立网络拓扑结构,分析热点话题传播态势。第三,定义影响力。利用个体驱动机制和好友驱动机制这两个方面定义影响力;并且利用多元线性回归模型拟合个体影响力和好友影响力。第四,建立改进的SIR模型,结合影响力,分析热点话题传播态势,挖掘隐链。

A system and method for analyzing hot topic propagation trend based on hidden link analysis

The invention requests protection, belonging to the field of social network analysis, a system and a method for analyzing the propagation trend of hot topics based on hidden links. Including: First, download or use the public API from the existing Web-based research recommendation system to obtain user information and data processing including data fragmentation. Second, establish implicit links. Using implicit relationships in social networks, implicit links are established by tag similarity, topic similarity, text content similarity, and common friends among users. The network topology is established by implicit links and explicit links, and the propagation situation of hot topics is analyzed. Third, define influence. Individual driving mechanism and friend driving mechanism are used to define influence, and multiple linear regression model is used to fit individual influence and friend influence. Fourthly, an improved SIR model is established to analyze the communication situation of hot topics and excavate hidden chains.

【技术实现步骤摘要】
一种基于隐链接分析热点话题传播趋势的系统及方法
本专利技术属于信息传播领域,涉及隐链接的建立,是一种更加全面分析热点话题传播态势的系统及方法。
技术介绍
近年来,随着互联网、社交网络等技术的快速发展,在线社交网络成为用户获取、分享及传播信息的重要平台,对社交网络的研究成为当今研究的热点,其中信息传播态势的分析备受关注。目前大量的研究主要基于已有的显性好友拓扑结构,忽略了隐性影响因素对信息传播的影响,这样不能准确地分析热点话题传播的态势,没有给舆情控制,商家推销产品带来更好的效果。肖云鹏博士在其论文(肖云鹏.在线社会网络用户行为模型与应用算法研究,北京邮电大学,2013)首次提出“隐链接”这个概念,隐链接指本来不存在显性好友关系,由于在话题中与用户的观点相同或相反,因此驱动话题的传播。所以在分析在线社交网络热点话题传播态势中,不仅需要显链接来构建网络拓扑结构,也需要添加隐链接共同构建网络拓扑结构,更加准确地分析热点话题的传播态势。目前在建立隐链接方面,主要采用单属性来构建隐链接,由于习惯性、用户自身特殊情况等原因参与话题,所以在利用文本相似性单属性建立隐链接方面存在偏差。需要利用不同类型的话题以及不同性格的用户,采用不同的多个属性建立隐链接。目前关于多个属性赋权值的研究,主要有两个方面,一方面是主观赋权法,另一方面是客观赋权法。主观赋权法需要作者有足够的经验,客观赋权法需要有大量真实的数据。这两个方法都存在误差,需要在适当情况下采用合适的方法,进而减小误差。在线社交网络信息传播的影响力最大化方面,很多学者主要研究定性分析影响力。忽略在复杂网路中,影响力受很多因素的影响,忽略用户自身以及周围好友的影响,在定义影响力方面存在较大的误差,不能很好地解决影响力最大化这个问题。该专利技术分别从利用多个属性定义个体驱动机制以及利用多个属性定义好友驱动机制,更全面地定义影响力,并提出一种基于多元线性回归模型影响力计算和衡量方法。
技术实现思路
本专利技术针对传统仅利用显性好友关系构建网络拓扑结构不全面性的问题,提出一种基于隐链接分析热点话题传播趋势的方法;根据计算影响力最大化方法,传统方法定义影响力没有考虑用户之间相互影响的因素,本专利技术从个人驱动机制和好友驱动机制两个方面定义影响力,并根据具体情况,利用多个属性来表示个人驱动机制和好友驱动机制;针对传统传染病模型中人为设定参数带来的随机性,本文依据用户影响力因子作为SIR模型状态转变的参数。本专利技术的技术方案如下:一种基于隐链接分析热点话题传播趋势的系统,其包括:数据获取模块、隐链接建立模块、影响力定义模块及动力学模型构建模块,其中数据获取模块,主要用于直接从基于web研究型的推荐系统下载或利用成熟的社交平台的应用程序编程接口获取数据,并对数据进行包括相应属性的预处理后发送给隐链接建立模块后,利用K-近邻算法建立隐链接;隐链接建立模块,主要用于提取相关属性,建立隐链接,从已有数据中提取用户之间标签相似度、相同话题、共同好友、文本相似性四个属性,利用K-近邻算法,构建用户之间的隐链接,进而计算非好友之间的影响力;影响力定义模块,用于根据个体驱动机制和好友驱动机制,分别用多个属性构成个体影响力和好友影响力两个因素定义热点话题传播的影响力,并利用多元线性回归模型,分析影响力;动力学模型构建模块,用于把信息传播运用到动力学模型中,把影响力因子引入到动力学模型中,分析热点话题传播趋势。进一步的,所述数据获取模块抓取某三个热点话题下的转发或评论用户的信息,包括已参与话题讨论用户的粉丝信息。进一步的,所述隐链接建立模块从已有数据中提取用户之间标签相似度、相同话题、共同好友、文本相似性四个属性,根据数据方面的特征对其进行修改,具体如下:1.标签相似度tagsim(vi,vj):A表示用户vi的标签,B表示用户vj的标签,用Jaccard系数进行归一化计算,Jaccard系数越大,表示两个用户标签相似度越大;2.相同话题comtopic(vi,vj)和共同好友comfriend(vi,vj)通过获取的数据直接统计出来;3.文本内容相似性textsim(θ):textsim(θ)=cosθ(2)式(2)中的余弦值cosθ的定义如下式(3)所示:将两个用户的发的微博的词,建立两个向量a,b,计算这两个向量的余弦值,就得到这两个用户的文本在统计学方法中他们的相似情况,其中(x1,y1)代表向量a的坐标,(x2,y2)代表向量b的坐标。进一步的,所述隐链接建立模块根据计算出来的四个属性,结合主观赋权值法和客观赋权值法,给予四个属性合理赋权值,利用K-近邻算,设置k值,得到与好友属性极其相似的用户,建立隐链接,其算法步骤如下:①从统计好的数据中随机选出3/4的数据作为训练集,1/4的数据作为测试集;②设置k=6;③根据公式dis=w1*(tr1-te1)2+w2*(tr2-te2)2+w3*(tr3-te3)2+w4*(tr4-te4)2,其中w1+w2+w3+w4=1,tr代表训练集中的数据,te代表测试集中的数据。分别输入四个属性的值;w1、w2、w3、w4代表属性的权重;④通过KNN算法,得到哪些用户之间可以建立隐链接;⑤循环随机其他数据作测试集,直到所有数据集中的用户都有判断结果。进一步的,所述影响力定义模块具体包括:S31:使用多个相关属性定义个体影响力,个体影响力的定义如下式(8)所示:其中,ψij表示用户vi的属性,包括活跃用户、内容相似度和主动性个体驱动机制,为归一化因子;S32:使用多个相关属性定义好友影响力,好友影响力的定义如下式(14)所示:其中,ψij表示用户vi的好友属性,为归一化因子,是半衰期函数,表示信息从发布到慢慢消亡的生命周期,其中,ti表示当前目标用户参与话题的时间,t′i表示好友参与话题的时间,w为正则化因子,w=1000;S33:结合个体驱动机制和好友驱动机制定义影响力如下式(15)所示:Inf(vi)=γ0+γ1*indi(vi)+γ2*fri(vi)式(15)其中,γ0、γ1、γ2表示偏回归系数,由多元线性回归模型训练拟合得出,其中indi(vi)表示个体影响力,fri(vi)表示好友影响力。进一步的,所述动力学模型构建模块中定义影响力流程具体可分为两个步骤:S41:根据传染率λ不是一直不变的定值,是随时间和个人兴趣、爱好不断变换的,利用平均场理论,对传染率λ进行描述;S42:分别利用隐链接的影响力和显链接的影响力构建SIR传染病模型,动力学方程如下式(16)所示:其中λ1表示显链接的感染率,λ2表示隐链接的感染率,利用时间分片的方法,把每2个小时参与话题的人作为一个时间段分片,其中I(t)表示一个时间段分片中消息已知者的人数,S(t)表示一个时间段分片中消息未知者的人数,μ表示从消息已知者转换为消息免疫者的概率。一种基于所述系统的隐链接分析热点话题传播趋势的方法,其包括以下步骤:第一步:获取数据集,数据源的获取直接从现有的基于Web的研究型推荐系统下载或者利用成熟的社交平台的公共API获取用户的相关信息并进行包括包括数据分片在内的数据处理;第二步:建立隐链接,从数据集中利用不同的方法分别计算出用户之间标签相似度、相同话题、共同好友、文本相似性四个因素,根本文档来自技高网
...
一种基于隐链接分析热点话题传播趋势的系统及方法

【技术保护点】
1.一种基于隐链接分析热点话题传播趋势的系统,其特征在于,包括:数据获取模块、隐链接建立模块、影响力定义模块及动力学模型构建模块,其中数据获取模块,主要用于直接从基于web研究型的推荐系统下载或利用成熟的社交平台的应用程序编程接口获取数据,并对数据进行包括相应属性的预处理后发送给隐链接建立模块后,利用K‑近邻算法建立隐链接;隐链接建立模块,主要用于提取相关属性,建立隐链接,从已有数据中提取用户之间标签相似度、相同话题、共同好友、文本相似性四个属性,利用K‑近邻算法,构建用户之间的隐链接,进而计算非好友之间的影响力;影响力定义模块,用于根据个体驱动机制和好友驱动机制,分别用多个属性构成个体影响力和好友影响力两个因素定义热点话题传播的影响力,并利用多元线性回归模型,分析影响力;动力学模型构建模块,用于把信息传播运用到动力学模型中,把影响力因子引入到动力学模型中,分析热点话题传播趋势。

【技术特征摘要】
1.一种基于隐链接分析热点话题传播趋势的系统,其特征在于,包括:数据获取模块、隐链接建立模块、影响力定义模块及动力学模型构建模块,其中数据获取模块,主要用于直接从基于web研究型的推荐系统下载或利用成熟的社交平台的应用程序编程接口获取数据,并对数据进行包括相应属性的预处理后发送给隐链接建立模块后,利用K-近邻算法建立隐链接;隐链接建立模块,主要用于提取相关属性,建立隐链接,从已有数据中提取用户之间标签相似度、相同话题、共同好友、文本相似性四个属性,利用K-近邻算法,构建用户之间的隐链接,进而计算非好友之间的影响力;影响力定义模块,用于根据个体驱动机制和好友驱动机制,分别用多个属性构成个体影响力和好友影响力两个因素定义热点话题传播的影响力,并利用多元线性回归模型,分析影响力;动力学模型构建模块,用于把信息传播运用到动力学模型中,把影响力因子引入到动力学模型中,分析热点话题传播趋势。2.根据权利要求1所述的一种基于隐链接分析热点话题传播趋势的系统,其特征在于,所述数据获取模块抓取某三个热点话题下的转发或评论用户的信息,包括已参与话题讨论用户的粉丝信息。3.根据权利要求1所述的一种基于隐链接分析热点话题传播趋势的系统,其特征在于,所述隐链接建立模块从已有数据中提取用户之间标签相似度、相同话题、共同好友、文本相似性四个属性,根据数据方面的特征对其进行修改,具体如下:1.标签相似度tagsim(vi,vj):A表示用户vi的标签,B表示用户vj的标签,用Jaccard系数进行归一化计算,Jaccard系数越大,表示两个用户标签相似度越大;2.相同话题comtopic(vi,vj)和共同好友comfriend(vi,vj)通过获取的数据直接统计出来;3.文本内容相似性textsim(θ):textsim(θ)=cosθ(2)式(2)中的余弦值cosθ的定义如下式(3)所示:将两个用户的发的微博的词,建立两个向量a,b,计算这两个向量的余弦值,就得到这两个用户的文本在统计学方法中他们的相似情况,其中(x1,y1)代表向量a的坐标,(x2,y2)代表向量b的坐标。4.根据权利要求3所述的一种基于隐链接分析热点话题传播趋势的系统,其特征在于,所述隐链接建立模块根据计算出来的四个属性,结合主观赋权值法和客观赋权值法,给予四个属性合理赋权值,利用K-近邻算法,设置k值,得到与好友属性极其相似的用户,建立隐链接,其算法步骤如下:①从统计好的数据中随机选出3/4的数据作为训练集,1/4的数据作为测试集;②设置k=6;③根据公式dis=w1*(tr1-te1)2+w2*(tr2-te2)2+w3*(tr3-te3)2+w4*(tr4-te4)2,其中w1+w2+w3+w4=1,tr代表训练集中的数据,te代表测试集中的数据。分别输入四个属性的值;w1、w2、w3、w4代表属性的权重;④通过KNN算法,得...

【专利技术属性】
技术研发人员:肖云鹏梁霞杜江谢小秋刘宴兵李净桦
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1