互联网资讯信息热点预测方法技术

技术编号：10411820 阅读：130 留言：0更新日期：2014-09-10 20:21

本发明专利技术涉及网络信息采集和分析方法，具体涉及互联网资讯信息热点预测方法，本发明专利技术提供的互联网资讯信息热点预测方法，是基于目前资讯信息热点预测的广泛需求及遇到的瓶颈，针对Web2.0下互联网信息活动中用户高度参与的特点，建立了热点资讯信息评价模型，并给出了互联网热度评价算法。实验结果表明算法能够综合利用用户反馈和网页等信息来准确的评价信息热度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息采集和分析方法，具体涉及。
技术介绍
互联网上每时每刻都有数十亿条的资讯信息被用户发布、获取、评价与传播，如何在这动态而分散信息活动中挖掘其中的热点话题成为互联网的研究重点，在互联网信息舆情监控和引导方面有着重要的意义，传统的互联网热点资讯的挖掘方法主要针对资讯数据本身进行挖掘，如基于基本资讯内容进行分类和聚类，然后基于热点或敏感的关键字的进行分析和预测，但网民才是互联网的主角，缺少用户对资讯信息的反馈数据的深入挖掘，热点预测的精确性较低，但热点的资讯信息容易引起了大量网民的关注和讨论，话题参与者集思广益，纷纷提出了自己的观点和看法，往往可以延伸到很多其它的社会问题。正因如此，有很多不良或不法的言论就会借机滋生出来，如不加以扼制，可能会对社会造成不良的影响。舆情调控要实现因地制宜，有的放矢，所以就需要对这种“热点资讯”进行重点和有力度的调控。
技术实现思路
针对上述技术问题，本专利技术提供一种热点资讯信息评价模型，具体的技术方案为:，包括以下步骤，(I)通过网络爬虫定期采集互联网上的资讯信息及该资讯信息相关的网民的参与情况，所述资讯信息包括标题、关键字、摘要、正文内容，所述的资讯信息相关的网民参与情况包括参与数和点击时间，所述的参与数包括点击数、评论数；(2)对上述采集到的资讯信息进行预处理，所述的预处理包括过滤垃圾信息和数据排重，最后将预处理后的资讯信息保存到数据库中；(3)对预处理后的资讯信息进行聚类分析，把内容有关联的信息运用聚类算法聚合到一起形成一个事件，最终输出为一系列事件集合；(4)循环第(3)步骤输出的结果事件...

【技术保护点】
互联网资讯信息热点预测方法，其特征在于：包括以下步骤， (1)通过网络爬虫定期采集互联网上的资讯信息及该资讯信息相关的网民的参与情况，所述资讯信息包括标题、关键字、摘要、正文内容，所述的资讯信息相关的网民参与情况包括参与数和点击时间，所述的参与数包括点击数、评论数； (2)对上述采集到的资讯信息进行预处理，所述的预处理包括过滤垃圾信息和数据排重，最后将预处理后的资讯信息保存到数据库中； (3)对预处理后的资讯信息进行聚类分析，把内容有关联的信息运用聚类算法聚合到一起形成一个事件，最终输出为一系列事件集合； (4)循环第(3)步骤输出的结果事件集合，汇总每一个事件中资讯信息的点击数和评论数，把汇总后的点击数和评论数作为该事件的点击数和评论数，保存到数据库； (5)循环第(3)步骤输出的结果事件集合，计算每一个事件的得分，然后保存到数据库； (6)循环第(5)步骤输出的结果事件集合，按照事件得分的高低进行倒序排序，其中得分最高的为最热事件； (7)选择第(6)步骤计算的结果中排序靠前的n条事件，然后根据预测模型预测事件未来的发展趋势和热度，如果事件的热度处于上升趋势则作为重点事件进行分析和监控。...

【技术特征摘要】
1.互联网资讯信息热点预测方法，其特征在于:包括以下步骤， (1)通过网络爬虫定期采集互联网上的资讯信息及该资讯信息相关的网民的参与情况，所述资讯信息包括标题、关键字、摘要、正文内容，所述的资讯信息相关的网民参与情况包括参与数和点击时间，所述的参与数包括点击数、评论数； (2)对上述采集到的资讯信息进行预处理，所述的预处理包括过滤垃圾信息和数据排重，最后将预处理后的资讯信息保存到数据库中； (3)对预处理后的资讯信息进行聚类分析，把内容有关联的信息运用聚类算法聚合到一起形成一个事件，最终输出为一系列事件集合； (4)循环第(3)步骤输出的结果事件集合，汇总每一个事件中资讯信息的点击数和评论数，把汇总后的点击数和评论数作为该事件的点击数和评论数，保存到数据库； (5)循环第(3)步骤输出的结果事件集合，计算每一个事件的得分，然后保存到数据库； (6)循环第(5)步骤输出的结果事件集合，按照事件得分的高低进行倒序排序，其中得分最闻的为最热事件； (7)选择第(6)步骤计算的结果中排序靠前的η条事件，然后根据预测模型预测事件未来的发展趋势和热度，如果事件的热度处于上升趋势则作为重点事件进行分析和监控。2.根据权利要求1所述的互联网资讯信息的热点预测方法，其特征在于:第(3)步骤所述的聚类算法使用single-pass算法,具体步骤如下: (a)接收一篇互联网资讯信息的文本向量d； (b)文本向量d逐一与已有的事件中的各资讯信息进行相似度计算，并取最大者作为与该话题的相似度； (C)在所有事件间选出与文本向量d相似度最大的一个，以及此时的相似度值； (d)如果相似度大于阈值TC，文本向量d所对应的互联网资讯信息被分配给这个事件，跳转至步骤(f)； (e)如果相似度...

【专利技术属性】
技术研发人员：郗旻，张金领，
申请(专利权)人：东莞市巨细信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人