互联网热点信息自动监测方法技术

技术编号:16399312 阅读:48 留言:0更新日期:2017-10-17 19:41
本发明专利技术提供了一种互联网热点信息自动监测方法,该方法包括:按照用户的设置遍历预设范围内的网页,针对特定话题进行抓取、分类和保存;将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引。本发明专利技术提出了一种互联网热点信息自动监测方法,基于改进的数据爬取和分析过程,对舆情信息实现了准确预测以及实时控制。

Automatic monitoring method of hot spot information on Internet

The present invention provides a method for automatic monitoring of Internet information, the method comprises: according to the setting of the user traversal within a preset range \, to capture, classification and preservation on certain topics; will address URL to grab the system storage, analysis, throughredundancy filtering and indexing. The invention provides an internet hotspot information automatic monitoring method. Based on the improved data crawling and analysis process, the public opinion information can be accurately predicted and real-time controlled.

【技术实现步骤摘要】
互联网热点信息自动监测方法
本专利技术涉及网络搜索,特别涉及一种互联网热点信息自动监测方法。
技术介绍
互联网已经成为人们获取信息的途径,用户通过互联网这个信息平台,能够表达自己对某些事件、现象以及政策的观点。另一方面,也涌入了反动、黄色以及网络犯罪方面的内容。现有技术对于互联网信息监控方面已经将网络搜索、数据挖掘、智能分析以及话题监控等方面的技术进行了一定程度的提升,设计、实现了许多网络话题系统。但整体解决方案与系统化的科学解释、详细描述、准确预测以及实时控制还需要较大地改进。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种互联网热点信息自动监测方法,包括:按照用户的设置遍历预设范围内的网页,针对特定话题进行抓取、分类和保存;将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引。优选地,采集网络话题的服务器个数根据监控网站数量、网络话题的监测范围以及更新频率而进行调整。优选地,在抓取网络话题阶段,对相关网页进行访问,提取出有用的话题并将提取的数据结构化;使用爬取引擎缩小链接的范围,只爬取相关话题页面的信息并从网页的源文件中定位标签属性信息,进行同类话题网页的聚本文档来自技高网...
互联网热点信息自动监测方法

【技术保护点】
一种互联网热点信息自动监测方法,其特征在于,包括:按照用户的设置遍历预设范围内的网页,针对特定话题进行抓取、分类和保存;将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引。

【技术特征摘要】
1.一种互联网热点信息自动监测方法,其特征在于,包括:按照用户的设置遍历预设范围内的网页,针对特定话题进行抓取、分类和保存;将抓取到的URL地址进行系统存储、分析、去重过滤、建立索引。2.根据权利要求1所述的方法,其特征在于,采集网络话题的服务器个数根据监控网站数量、网络话题的监测范围以及更新频率而进行调整。3.根据权利要求1所述的方法,其特征在于,在抓取网络话题阶段,对相关网页进行访问,提取出有用的话题并将提取的数据结构化;使用爬取引擎缩小链接的范围,只爬取相关话题页面的信息并从网页的源文件中定位标签属性信息,进行同类话题网页的聚类;所述爬取引擎采用深度搜索爬取,在爬取的过程中获取主题相关的信息与链接并放入爬取队列,并爬取链接所关联的网页信息;在爬取到网页中的主题链接页面后,获取标题、用户、发起时间、最后回复时间以及相关链接的URL,并记录下主题的回复数,然后再通过主题的源码获取主题的内容信息。4.根据权利要求1所述的方法,其特征在于,在进...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:成都布林特信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1