一种基于混沌理论的热点话题流行度预测系统及方法技术方案

技术编号:19009632 阅读:49 留言:0更新日期:2018-09-22 09:26
本发明专利技术请求保护一种基于混沌理论的流行度预测模型。它的具体步骤如下:获取数据、定义流行度、混沌理论模型、预测模型四个部分。首先,通过网络爬虫抓取Web中的内容获取社交网络用户数据。然后,分析影响流行度的驱动机制,利用主成分分析,量化基于多种机制影响的话题流行度。其次,利用上一步定义的流行度时间序列分别从单参数和多参数入手,基于混沌理论进行流行度时间序列的相空间重构,同时,在多参数相空间融合过程中,利用贝叶斯估计理论将多个参数在同一高维空间中进行相点的最优融合,得到新的多参数重构相空间。最后,考虑到RBF具有很强的逼近非线性函数的能力,利用RBF对重构的混沌时间序列进行流行度预测。

A hot topic popularity prediction system and method based on Chaos Theory

The invention requests to protect a prediction model based on chaos theory. Its specific steps are as follows: data acquisition, definition of popularity, chaos theory model, prediction model four parts. First, crawling the contents of Web through the crawler to get the social network user data. Then, the driving mechanism of influencing popularity is analyzed, and the topic popularity based on multiple mechanisms is quantified by principal component analysis. Secondly, based on the chaos theory, the phase space reconstruction of the epidemic time series is carried out by using the one-parameter and multi-parameter time series defined in the previous step. At the same time, in the process of multi-parameter phase space fusion, Bayesian estimation theory is used to optimize the fusion of multiple parameters in the same high-dimensional space. The new multi parameter reconstruction phase space is obtained. Finally, considering the strong ability of RBF to approximate nonlinear functions, RBF is used to predict the popularity of the reconstructed chaotic time series.

【技术实现步骤摘要】
一种基于混沌理论的热点话题流行度预测系统及方法
本专利技术属于社交网络热点话题分析领域,主要涉及用户行为分析,构建一种基于混沌时间序列的热点话题流行度预测模型。
技术介绍
随着Web2.0的兴起以及技术的发展与进步,在线社交网已经成为人们获取信息、交流信息的重要平台,对人们的工作生活产生了巨大的影响。其中,微博是当今最为流行的在线社交网之一,它是一种互动及传播性及快的平台,正是因为这,使得用户生成的内容成为受到关注的热门内容,拥有较高的流行度。对于话题的流行度的预测与分析具有非常重要的研究和应用价值。在安全领域,感知话题流行度的趋势、预测话题流行度的值,能够及时掌控舆情的发展趋势,从而有效的掌控社会态势并有利的支持安全预警和辅助决策;在商业领域,准确估计热点话题的流行度可以及时了解用户的需求和喜好,帮助商家更合理的进行商品推荐和广告投放。因此如何准确地估计出给定热点话题在未来某个时间点的流行度的值,成为社交网络领域的主要研究内容。目前,关于流行度的研究主要集中于在线视频、微博、话题标签等。多数研究工作中,研究者通常将流行度定义量化为某种数量,如视频的观看数、微博的点赞数、话题标签的出现次数等。关于流行度的预测方法,主要有3类:基于早期流行度、基于影响因素、基于级联传播。基于早期流行度的预测方法认为早期流行度和一段时间后的流行度之间存在很强的线性关系,因此早期流行度可以作为预测因子预测未来时刻的流行度,SH模型是流行度演化态势预测的经典模型,后来SH模型的基础上扩展和延伸,如:多元线性回归模型和生成式模型等。基于影响因素的方法,考虑影响流行度的多种因素,利用分类学习、随机过程等对流行度进行预测。例如:He等人考虑影响流行度的时序因素和社交影响力,提出一个正则排序算法,用来预测网络信息未来流行度。基于级联传播的流行度预测方法,此方法是一种信息传播过程,考虑到好友间的网络拓扑结构,如:Kupavskii研究了Twitter中retweet的级联,利用传染病模型对retweet级联的增长过程进行建模。在热点话题信息传播中,流行度的态势变化受多种因素交互影响,简单的用数量来定义流行度不能全面细致的反应流行度的态势变化,同时传统的时间序列流行度采用SH模型和多元回归等线性模型对未来时刻的流行度预测,忽略了流行度态势变化的非线性特点,且由于精确预测的数值是一个非常困难的问题,一些流行度预测仅仅停留在流行度范围、周期和速度预测领域。本专利技术把混沌理论应用到流行度的预测当中,传统的混沌预测时从宏观角度出发,把百度指数、谷歌指数当作流行度,本方法则从具体话题入手,把混沌理论应用于微观、细粒度的热点话题流行度预测中,同时,针对单参数预测难以反映流行度态势变化的情况,利用贝叶斯估计理论进行多参数的最优融合,弥补了单参数预测不足,达到更好的预测效果。
技术实现思路
本专利技术针对现有技术中,流行度定义、交互机制影响下时间序列表现出非线性特征、流行度数值预测困难等问题,提出一种基于混沌理论的热点话题流行度预测系统及方法。该方法从微观、细粒度的层面,发现热点话题流行度的传播趋势具有混沌特性。本专利技术的技术方案如下:一种基于混沌理论的热点话题流行度预测系统,包括数据源获取模块,用于获取社交网络用户数据,抓取热点话题的传播信息,包括用户个人信息和用户话题用信息,其中,用户话题信息是指用户参与该话题转发、评论或者点赞的时间以及转发或者评论该话题的内容,用户个人信息包括参与该话题用户的粉丝数,关注数以及其历史行为信息,其还包括:流行度定义模块、融合模块及流行度预测模块;其中流行度定义模块是根据数据源模块抓取的数据,即用户的话题信息和历史行为信息,获得的影响流行度的因素,进而提取影响流行度变化趋势的行为驱动机制和属性驱动机制,利用主成分分析,确定影响流行度的主要驱动机制,定义基于多种驱动机制影响的流行度,进而获得单参数和多参数流行度时间序列;融合模块,用于对流行度定义模块获得的单参数和多参数时间序列利用小数据量法求最大Lyapunov指数,从而证明热点话题的流行度变化趋势具有混沌特性,单参数相空间重构时,只需求得嵌入维数和延迟时间,按照相空间重构定理重构相空间,但对多参数相空间重构时,结合贝叶斯估计理论对多变量相空间在同一高维相空间进行相点的最优融合,得到对应的融合后新的相空间;流行度预测模块,用于对融合模块得到的单参数和多参数融合相空间,利用径向基神将网络RBF对其重构的相空间进行流行度的预测。进一步的,所述流行度定义模块提取流行度的行为驱动机制和属性驱动机制,包括以下内容:行为驱动机制:(1)参与该话题用户在特定时刻的评论数:countnum(ti)(2)参与该话题用户在特定时刻的转发数:retweetnum(ti)属性驱动机制:(1)参与该话题用户在特定时刻关注度:attentionvalue(ti)(2)参与该话题用户在特定时刻的影响力:influence(ti)。进一步的,所述行为驱动机制,获取的转发和评论数影响的流行度的时间序列的获得包括:从话题开始到话题结束,每隔10分钟作为一个时间序列的采样点,用户在每个时刻受转发数影响的流行度定义为该时刻用户转发数相对上一时刻转发数增加的数目;用户在每个时刻受评论数影响的流行度定义为该时刻用户评论数相对上一时刻评论数增加的数目;属性驱动机制:参与用户关注度影响的时间序列的获得:A(ui)是用户的关注度,其中Num[fans(ui)]、Num[fllower(ui)]分别代表用户ui的粉丝数和关注数,则把用户关注度定义为:则用户在每时刻受用户关注度影响的流行度时间序列定义为在该时刻前一个小时内参与本话题的所有用户的关注度之和;参与用户影响力影响的时间序列的获得:I(ui)是参与用户的影响力,其中分别为用户ui在所研究话题开始前一个月每条微博的平均阅读数、平均评论数、平均转发数,把用户影响力定义为:则用户在每时刻受用户影响力影响的流行度时间序列定义为在该时刻前一个小时内参与本话题的所有用户的影响力之和。进一步的,所述融合模块具体具体包括:S31:单参数的相空间重构理论;S32:多参数的相空间重构理论;其中在单参数和多参数进行相空间重构时分别采用C-C算法和Cao算法求延迟时间和嵌入维数,且利用贝叶斯估计理论进行多参数相空间融合时,选取最大嵌入维数m和最小延迟时间τ作为新的相空间重构参数。进一步的,所述流行度预测模块把得到的单参数和多参数相空间分别结合RBF进行流行度预测,其中输入是相空间的每个相点,输出是下一时刻流行度的值,φi是径向基函数,表示为:其中ck为每个径向基函数的中心,σ为基宽向量。Yk表示预测模型的输入数据,在本专利技术代表重构后的每一个相点。一种基于所述系统的基于混沌理论的热点话题流行度预测方法,包括以下步骤:S1:获取数据源;从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;S2:定义流行度,获得单变量和多变量流行度态势变化的时间序列;提取影响流行度变化趋势的行为驱动机制和属性驱动机制,利用主成分分析,确定影响流行度的主要驱动机制,定义基于多种驱动机制影响的流行度,获得单参数和多参数流行度时间序列;S3:证明热点话题流行度传播趋势具有混沌特性,进本文档来自技高网
...
一种基于混沌理论的热点话题流行度预测系统及方法

【技术保护点】
1.一种基于混沌理论的热点话题流行度预测系统,包括数据源获取模块,用于获取社交网络用户数据,抓取热点话题的传播信息,包括用户个人信息和用户话题用信息,其中,用户话题信息是指用户参与该话题转发、评论的时间以及转发或者评论该话题的内容,用户个人信息包括参与该话题用户的粉丝数,关注数以及其历史行为信息,其特征在于,还包括:流行度定义模块、融合模块及流行度预测模块;其中流行度定义模块是根据数据源模块抓取的数据,即用户的话题信息和历史行为信息,获得的影响流行度的因素,即和数据源模块的关系进而提取影响流行度变化趋势的行为驱动机制和属性驱动机制,利用主成分分析,确定影响流行度的主要驱动机制,定义基于多种驱动机制影响的流行度,进而获得单参数和多参数流行度时间序列;融合模块,用于对流行度定义模块获得的单参数和多参数时间序列利用小数据量法求最大Lyapunov指数,从而证明热点话题的流行度变化趋势具有混沌特性,单参数相空间重构时,只需求得嵌入维数和延迟时间,按照相空间重构定理重构相空间,但对多参数相空间重构时,结合贝叶斯估计理论对多变量相空间在同一高维相空间进行相点的最优融合,得到对应的融合后新的相空间;流行度预测模块,用于对融合模块得到的单参数和多参数融合相空间,利用径向基神将网络RBF对其重构的相空间进行流行度的预测。...

【技术特征摘要】
1.一种基于混沌理论的热点话题流行度预测系统,包括数据源获取模块,用于获取社交网络用户数据,抓取热点话题的传播信息,包括用户个人信息和用户话题用信息,其中,用户话题信息是指用户参与该话题转发、评论的时间以及转发或者评论该话题的内容,用户个人信息包括参与该话题用户的粉丝数,关注数以及其历史行为信息,其特征在于,还包括:流行度定义模块、融合模块及流行度预测模块;其中流行度定义模块是根据数据源模块抓取的数据,即用户的话题信息和历史行为信息,获得的影响流行度的因素,即和数据源模块的关系进而提取影响流行度变化趋势的行为驱动机制和属性驱动机制,利用主成分分析,确定影响流行度的主要驱动机制,定义基于多种驱动机制影响的流行度,进而获得单参数和多参数流行度时间序列;融合模块,用于对流行度定义模块获得的单参数和多参数时间序列利用小数据量法求最大Lyapunov指数,从而证明热点话题的流行度变化趋势具有混沌特性,单参数相空间重构时,只需求得嵌入维数和延迟时间,按照相空间重构定理重构相空间,但对多参数相空间重构时,结合贝叶斯估计理论对多变量相空间在同一高维相空间进行相点的最优融合,得到对应的融合后新的相空间;流行度预测模块,用于对融合模块得到的单参数和多参数融合相空间,利用径向基神将网络RBF对其重构的相空间进行流行度的预测。2.根据权利要求1所述的一种基于混沌理论的热点话题流行度预测系统,其特征在于,所述流行度定义模块提取流行度的行为驱动机制和属性驱动机制,包括以下内容:行为驱动机制:(1)参与该话题用户在特定时刻的评论数:countnum(ti)(2)参与该话题用户在特定时刻的转发数:retweetnum(ti)属性驱动机制:(1)参与该话题用户在特定时刻关注度:attentionvalue(ti)(2)参与该话题用户在特定时刻的影响力:influence(ti)。3.根据权利要求2所述的一种基于混沌理论的热点话题流行度预测系统,其特征在于,所述行为驱动机制,获取的转发和评论数影响的流行度的时间序列的获得包括:从话题开始到话题结束,每隔10分钟作为一个时间序列的采样点,用户在每个时刻受转发数影响的流行度定义为该时刻用户转发数相对上一时刻转发数增加的数目;用户在每个时刻受评论数影响的流行度定义为该时刻用户评论数相对上一时刻评论数增加的数目;属性驱动机制:参与用户关注度影响的时间序列的获得:A(ui)是用户的关注度,其中Num[fans(ui)...

【专利技术属性】
技术研发人员:肖云鹏谢小秋杜江梁霞张丽刘宴兵
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1