自适应在线社交网络热点话题发现预测方法及系统技术方案

技术编号:7843359 阅读:317 留言:0更新日期:2012-10-13 01:43
本发明专利技术公开了一种自适应在线社交网络热点话题发展趋势预测方法,包括如下步骤:a、预处理在线社交网络舆情信息,获得进行预测所需的时间序列;b、分析时间序列,通过判断时间序列本身以及一阶二阶微分后的时间序列的平稳性,给出合适的预测模型;c、对相应的模型进行初始化、并进行参数估计和模型训练;d、采用相应模型预测在线社交网络舆情发展趋势。本发明专利技术还公开了一种自适应在线社交网络热点话题发展趋势预测系统。本发明专利技术可用于网络安全。

【技术实现步骤摘要】

本专利技术涉及网络安全
,尤其涉及自适应在线社交网络热点话题发现预测方法及系统
技术介绍
根据中国互联网络信息中心(CNNIC) 2011年7月19日发布的《第28次中国互联网络发展状况统计报告》的数据,截至2011年6月底,我国网民规模已达4. 85亿,2011年上半年,中国微博用户数量从6311万快速增长到I. 95亿。。我国手机网民规模为3. 18亿,较2010年底增加了 1494万人。手机网民在总体网民中的比例达65. 5%,成为中国网民的重要组成部分。 WEB2. 0技术的应用与普及,使得互联网的规模变得更加庞大,越来越多的在线社交网络媒体(博客、微博、交友、论坛)涌现出来。良好的用户体验和快捷的联络形式给草根网民更多的自我展现的机会。同时,在线社交网络的高连通性、无中心性、无标度性、重尾性等特性,在无形之中给信息的传播带来了便捷通畅的传播渠道。“人肉搜索”即是在线社交网络信息传播多维化、快捷化的最好印证,这种现象在传统的人际网络中是很难实现的。然而,在线社交网络的这种特性也给谣言等不良信息的传播带来相同的便捷,这正是网络监管部门以及网络运营商所不愿看到的。此外,在线社交网络中的用户可以随意表达观点,或者与其有好友关系的用户之间进行观点互动,如果该观点是以某一热点事件为存在基础,在主观情绪化的作用下,该观点有可能会迅速扩散,会迅速演化成热点话题。反过来讲,热点话题会吸引更多的用户参与讨论。然而,在现实生活中某些用户遇到挫折,对社会问题存在片面认识或者敌对情绪,都会利用网络进行宣泄。因此在在线社交网络上更容易出现庸俗、灰色的言论。这些负面、不健康的话题的传播,会影响在线社交网络的正常运营,会造成局部社会的不和谐。因此,对网络中各类热点话题的发展趋势进行研究并预测是很有必要的。从网络安全的角度来看,研究并预测网络热点话题的发展趋势,并对该网络舆情的发展加以引导,这对于社会和谐稳定、网络健康发展有着举足轻重的意义。网络热点话题的持续性决定了这些热点话题有一定的时间连续性,因此以时间维度为出发点,以网络舆情内容(某一话题)的数量为研究对象,对网络话题的后续发展趋势进行短期实时预测。目前,国内市场存在很多同类型的舆情分析软件,如方正智思、军犬、中科新天、本果舆情、中搜迅奥等。这些产品的主要功能集中在互联网信息获取、数据分析、存储、话题聚类、舆论热点发现以及一些报表等功能上,在在线社交网络舆情预测方面,还没有相关的功能应用出现。在国内外学术领域,关于网络舆情或者网络话题的预测成果较少,已有的成果主要集中在两个方向进行研究。第一个方向主要从宏观的角度研究网络话题发展趋势,对网络话题的宏观指标有多种度量方式,其中一种方式就是以时间角度对网络话题进行量化,即研究某一时刻网络话题的数量和规模的变化规律。这个方向的成果以时间序列为研究对象,引入了经济学、人工智能领域的经典时间序列预测方法,经过模型改造、参数更新等步骤实现对基于话题规模的时间序列进行预测的工作(参考文献I:张虹,钟华,赵兵(2007),“基于数据挖掘的网络论坛话题热度趋势预报”,计算机工程与应用43(31) :159-162 ;参考文献2 :张虹,赵兵,钟华(2009),“基于小波多尺度的网络论坛话题热度趋势预测”,计算机技术与发展,19 (4) 76-79 ;参考文献3 :Hui Cheng, YunLiu, An online public forecast model based on time series, Journal of InternetTechnology, vol. 9, no. 5, pp. 429-432, 2008.)。第二个方向主要从微观角度研究网络话题的发展趋势,及考察网络拓扑结构、用户信息交互模式、参与用户群体特征、网络话题本身等方面,以物理学、统计学以及交叉学科的知识来尽量还原网络话题在某网络环境下的发展趋势,得到普遍规律,进而用来指导话题趋势预测(参考文献4:Lars Backstrom,D. H., Jon Kleinberg, Xiangyang Lan (2006), Group Formation in Large SocialNetworks !Membership,Growth,and Evolution,in Proceedings of the 12th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining(KDDj 06),Philadelphia, PA, USA ;参考文献 5 Yadong Zhou, X. G. , Qinghua Zheng, Qindong Sun,Junzhou Zhao (2010), Analyzing Group Dynamics for Incidental Topics in OnlineSocial Networks, in Proceedings of the 8th World Congress on IntelligentControl and Automation, Jinan, China ;参考文献6 :Zhou, Y. D. , X. H. Guan,· et al. (2010),Group Dynamics in Discussing Incidental Topics over Online Social Networks,IEEENetwork 24(6) :42-47)。
技术实现思路
本专利技术解决的技术问题在于选择何种方法对在线社交网络热点话题进行趋势预测。为了解决以上问题,本专利技术提供了一种自适应在线社交网络热点话题发展趋势预测方法,包括如下步骤a、预处理在线社交网络舆情信息,获得进行预测所需的时间序列;b、分析时间序列,通过判断时间序列本身以及一阶二阶微分后的时间序列的平稳性,给出合适的预测模型;C、对相应的模型进行初始化、并进行参数估计和模型训练;d、采用相应模型预测在线社交网络舆情发展趋势。进一步,作为一种优选方案,所述步骤b过程为bl、判断时间序列的平稳性,如果该时间序列平稳,则选择ARIMA模型进行预测;b2、如果该时间序列不平稳,判断该时间序列一阶差分的平稳性,如果该时间序列的一阶差分平稳,则选择ARIMA模型进行预测;b3、如果该时间序列的一阶差分不平稳,判断该时间序列二阶差分的平稳性,如果该时间序列的二阶差分平稳,则选择ARIMA模型进行预测;如果该时间序列的二阶差分不平稳,则选择BPNN模型进行预测。进一步,作为一种优选方案,所述步骤bl中判断时间序列的平稳性,所依据的是ADF单位根检验和时间序列的自相关函数和偏相关函数图。进一步,作为一种优选方案,BPNN模型中采用三层结构,输入层神经元个数由时间序列的嵌入维数决定,输出层神经元个数设定为1,隐藏层神经元的个数nH由下列三个公式共同决定。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应在线社交网络热点话题发展趋势预测方法,其特征在于包括如下步骤 a、预处理在线社交网络舆情信息,获得进行预测所需的时间序列; b、分析时间序列,通过判断时间序列本身以及一阶二阶微分后的时间序列的平稳性,给出合适的预测模型; C、对相应的模型进行初始化、并进行参数估计和模型训练; d、采用相应模型预测在线社交网络舆情发展趋势。2.如权利要求I所述的一种自适应在线社交网络热点话题发现预测方法,其特征在于所述步骤b过程为 bl、判断时间序列的平稳性,如果该时间序列平稳,则选择ARIMA模型进行预测;b2、如果该时间序列不平稳,判断该时间序列一阶差分的平稳性,如果该时间序列的一阶差分平稳,则选择ARIMA模型进行预测; b3、如果该时间序列的一阶差分不平稳,判断该时间序列二阶差分的平稳性,如果该时间序列的二阶差分平稳,则选择ARIMA模型进行预测;如果该时间序列的二阶差分不平稳,则选择BPNN模型进行预测。3.如权利要求2所述的一种自适应在线社交网络热点话题发现预测方法,其特征在于所述步骤b...

【专利技术属性】
技术研发人员:吴世忠程军军刘云张振江
申请(专利权)人:中国信息安全测评中心北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1