互联网资讯信息热点预测方法技术

技术编号:10411820 阅读:130 留言:0更新日期:2014-09-10 20:21
本发明专利技术涉及网络信息采集和分析方法,具体涉及互联网资讯信息热点预测方法,本发明专利技术提供的互联网资讯信息热点预测方法,是基于目前资讯信息热点预测的广泛需求及遇到的瓶颈,针对Web2.0下互联网信息活动中用户高度参与的特点,建立了热点资讯信息评价模型,并给出了互联网热度评价算法。实验结果表明算法能够综合利用用户反馈和网页等信息来准确的评价信息热度。

【技术实现步骤摘要】

本专利技术涉及网络信息采集和分析方法,具体涉及。
技术介绍
互联网上每时每刻都有数十亿条的资讯信息被用户发布、获取、评价与传播,如何在这动态而分散信息活动中挖掘其中的热点话题成为互联网的研究重点,在互联网信息舆情监控和引导方面有着重要的意义,传统的互联网热点资讯的挖掘方法主要针对资讯数据本身进行挖掘,如基于基本资讯内容进行分类和聚类,然后基于热点或敏感的关键字的进行分析和预测,但网民才是互联网的主角,缺少用户对资讯信息的反馈数据的深入挖掘,热点预测的精确性较低,但热点的资讯信息容易引起了大量网民的关注和讨论,话题参与者集思广益,纷纷提出了自己的观点和看法,往往可以延伸到很多其它的社会问题。正因如此,有很多不良或不法的言论就会借机滋生出来,如不加以扼制,可能会对社会造成不良的影响。舆情调控要实现因地制宜,有的放矢,所以就需要对这种“热点资讯”进行重点和有力度的调控。
技术实现思路
针对上述技术问题,本专利技术提供一种热点资讯信息评价模型,具体的技术方案为:,包括以下步骤,(I)通过网络爬虫定期采集互联网上的资讯信息及该资讯信息相关的网民的参与情况,所述资讯信息包括标题、关键字、摘要、正文内容,所述的资讯信息相关的网民参与情况包括参与数和点击时间,所述的参与数包括点击数、评论数;(2)对上述采集到的资讯信息进行预处理,所述的预处理包括过滤垃圾信息和数据排重,最后将预处理后的资讯信息保存到数据库中;(3)对预处理后的资讯信息进行聚类分析,把内容有关联的信息运用聚类算法聚合到一起形成一个事件,最终输出为一系列事件集合;(4)循环第(3)步骤输出的结果事件集合,汇总每一个事件中资讯信息的点击数和评论数,把汇总后的点击数和评论数作为该事件的点击数和评论数,保存到数据库;(5)循环第(3)步骤输出的结果事件集合,计算每一个事件的得分,然后保存到数据库;(6)循环第(5)步骤输出的结果事件集合,按照事件得分的高低进行倒序排序,其中得分最闻的为最热事件;(7)选择第(6)步骤计算的结果中排序靠前的η条事件,然后根据预测模型预测事件未来的发展趋势和热度,如果事件的热度处于上升趋势则作为重点事件进行分析和监控。具体的,第(3)步骤所述的聚类算法使用single-pass算法,具体步骤如下:(a)接收一篇互联网资讯信息的文本向量d ;(b)文本向量d逐一与已有的事件中的各资讯信息进行相似度计算,并取最大者作为与该话题的相似度;(c)在所有事件间选出与文本向量d相似度最大的一个,以及此时的相似度值;(d)如果相似度大于阈值TC,文本向量d所对应的互联网资讯信息被分配给这个事件,跳转至步骤(f);(e)如果相似度小于阈值TC,文本向量d所对应的互联网资讯信息不属于已有的事件,创建新事件,同时把这篇资讯归属创建的新的事件下;(f)本次聚类结束,等待新的资讯信息到来。具体的,第(5)步骤所述计算每一个事件的得分步骤为:(a)从数据库中获取事件的点击数、评论数,其中点击数标记为C,评论数标记为R;(b)循环计算事件集合中所有事件的点击数平均值、评论数平均值,其中点击数平均值标记为average (C),评论数平均值标记为average (R);(c)循环计算事件集合中所有事件的评论数和点击数比值,然后以比值大小排序比较,计算出最大的比值,其中评论数和点击数最大比值标记为max(R/C);(d)计算每一个事件的得分的公式为:S (E) = al (C/average (C)) +a2 (R/average (R)) +a3 ((R/C) /max (R/C))其中S(E)为事件的总分,al、a2、a3为权重因子,al的值是0.2,a2的值是0.3,a3的值是0.8,/符号表示两个数字相除。具体的,第(7)步骤所述的预测模型的预测算法包括以下步骤:(a)按第⑴步骤采集间隔的时间,每段间隔时间划分为一个槽,从数据库中获取这段时间中事件点击的总数,对应到这个槽中,用数组这种数据结构存储数据,其中数组的下标是时间,表示距离最新点击查看事件的时间;数组元素的值是点击数,表示间隔时间内的点击数,最后把数组对应到平面直角坐标系中,其中数组的下标做为横坐标,数组元素的值作为纵坐标,在平面直角坐标系中得到离散的点,使用高斯函数拟合经过这些离散点的曲线;以上所述的高斯函数公式为:y(x) =a* e-(乞V经过每条事件的实际数据可推导出高斯函数公式a, b, c的值;(b)对y = f (X)关于自变量X求导,得y ' (χ),令y ' (χ) = O,求出最大的极值点,设其为Xm ;如果满足以下两种情况之一,则认为该事件在未来一定时间内很有可能变得活跃:(l)y = f(x)没有极值点,且3X>0,使得 J 丨(χ) >0 ;(2)若3Χ>Χηι,使 y ' (X) >0 ;当条件(I)成立时,说明y ' 00>0,即700单调性递增,表示事件的活跃度上升;当条件⑵成立时,说明当到达xm后的某时刻χ时,y丨(x)>0, y(x)开始单调递增,同样以说明事件热度正处于上升的状态;如果存在点xn,使得J丨(Xn) = O,说明Xn是热度走势中的一个转折点,此时,找出最大的使得I ' (X) = O成立的点Xmax,考察满足xt>xmax的xt,如果I ' (Xt)〈O,说明该事件热度正处于下降的状态;相反地,如果y' OO >0,说明热度正处于上升的状态。本专利技术提供的,是基于目前资讯信息热点预测的广泛需求及遇到的瓶颈,针对Web2.0下互联网信息活动中用户高度参与的特点,建立了热点资讯信息评价模型,并给出了互联网热度评价算法。实验结果表明算法能够综合利用用户反馈和网页等信息来准确的评价信息热度。【附图说明】图1是本专利技术的流程图。图2是本专利技术高斯函数拟合离散点的曲线。【具体实施方式】结合实施例说明本专利技术的【具体实施方式】。,本实施例以资讯信息中的新闻信息为例,如图1所示,包括以下步骤,(I)通过网络爬虫定期采集互联网上的新闻信息及该新闻信息相关的网民的参与情况,所述新闻信息包括标题、关键字、摘要、正文内容,所述的新闻信息相关的网民参与情况包括参与数和点击时间,所述的参与数包括点击数、评论数,所述的点击数标记为C,所述的评论数标记为R ;(2)对上述采集到的新闻信息进行预处理,所述的预处理包括过滤垃圾信息和数据排重,最后将预处理后的新闻信息保存到数据库中;(3)对预处理后的新闻信息进行聚类分析,把内容有关联的信息运用聚类算法聚合到一起形成一个事件,最终输出为一系列事件集合;所述事件标记为E,事件集合标记为N;所述的聚类算法使用single-pass算法,具体步骤如下:(a)接收一篇互联网新闻信息的文本向量d ;(b)文本向量d逐一与已有的事件中的各新闻信息进行相似度计算,并取最大者作为与该话题的相似度;所述的相似度计算是对新闻信息的标题、关键字、摘要的智能分词,提取文本特征词,然后用文本特征词的权重组合为一个空间向量来数值化文本,进行相似计算。(C)在所有事件间选出与文本向量d相似度最大的一个,以及此时的相似度值;(d)如果相似度大于阈值TC,文本向量d所对应的互联网新闻信息被分配给这个事件,跳转至本文档来自技高网...

【技术保护点】
互联网资讯信息热点预测方法,其特征在于:包括以下步骤, (1)通过网络爬虫定期采集互联网上的资讯信息及该资讯信息相关的网民的参与情况,所述资讯信息包括标题、关键字、摘要、正文内容,所述的资讯信息相关的网民参与情况包括参与数和点击时间,所述的参与数包括点击数、评论数; (2)对上述采集到的资讯信息进行预处理,所述的预处理包括过滤垃圾信息和数据排重,最后将预处理后的资讯信息保存到数据库中; (3)对预处理后的资讯信息进行聚类分析,把内容有关联的信息运用聚类算法聚合到一起形成一个事件,最终输出为一系列事件集合; (4)循环第(3)步骤输出的结果事件集合,汇总每一个事件中资讯信息的点击数和评论数,把汇总后的点击数和评论数作为该事件的点击数和评论数,保存到数据库; (5)循环第(3)步骤输出的结果事件集合,计算每一个事件的得分,然后保存到数据库; (6)循环第(5)步骤输出的结果事件集合,按照事件得分的高低进行倒序排序,其中得分最高的为最热事件; (7)选择第(6)步骤计算的结果中排序靠前的n条事件,然后根据预测模型预测事件未来的发展趋势和热度,如果事件的热度处于上升趋势则作为重点事件进行分析和监控。...

【技术特征摘要】
1.互联网资讯信息热点预测方法,其特征在于:包括以下步骤, (1)通过网络爬虫定期采集互联网上的资讯信息及该资讯信息相关的网民的参与情况,所述资讯信息包括标题、关键字、摘要、正文内容,所述的资讯信息相关的网民参与情况包括参与数和点击时间,所述的参与数包括点击数、评论数; (2)对上述采集到的资讯信息进行预处理,所述的预处理包括过滤垃圾信息和数据排重,最后将预处理后的资讯信息保存到数据库中; (3)对预处理后的资讯信息进行聚类分析,把内容有关联的信息运用聚类算法聚合到一起形成一个事件,最终输出为一系列事件集合; (4)循环第(3)步骤输出的结果事件集合,汇总每一个事件中资讯信息的点击数和评论数,把汇总后的点击数和评论数作为该事件的点击数和评论数,保存到数据库; (5)循环第(3)步骤输出的结果事件集合,计算每一个事件的得分,然后保存到数据库; (6)循环第(5)步骤输出的结果事件集合,按照事件得分的高低进行倒序排序,其中得分最闻的为最热事件; (7)选择第(6)步骤计算的结果中排序靠前的η条事件,然后根据预测模型预测事件未来的发展趋势和热度,如果事件的热度处于上升趋势则作为重点事件进行分析和监控。2.根据权利要求1所述的互联网资讯信息的热点预测方法,其特征在于:第(3)步骤所述的聚类算法使用single-pass算法,具体步骤如下: (a)接收一篇互联网资讯信息的文本向量d; (b)文本向量d逐一与已有的事件中的各资讯信息进行相似度计算,并取最大者作为与该话题的相似度; (C)在所有事件间选出与文本向量d相似度最大的一个,以及此时的相似度值; (d)如果相似度大于阈值TC,文本向量d所对应的互联网资讯信息被分配给这个事件,跳转至步骤(f); (e)如果相似度...

【专利技术属性】
技术研发人员:郗旻张金领
申请(专利权)人:东莞市巨细信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1