基于静态网站的数据爬取及事件分析方法及系统技术方案

技术编号:28499794 阅读:35 留言:0更新日期:2021-05-19 22:40
本申请提供了一种基于静态网站的数据爬取及事件分析方法及系统,设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。本申请可基于静态网站自动分析页面,通过若干点击和少量的输入即可完成对一个网页的解析,生成爬虫规则,极大地提升了用户获取数据的效率,通过爬取数据处理,大大减少了爬取数据的庞杂性,使数据可用性以及调取性大大增加。解决了现有的数据获取方法效率低以及数据可用性低的问题。的问题。的问题。

【技术实现步骤摘要】
基于静态网站的数据爬取及事件分析方法及系统


[0001]本申请属于网站数据处理
,具体地,涉及一种基于静态网站的数据爬取及事件分析方法及系统。

技术介绍

[0002]互联网新闻以其传播速度快、多媒体、全球性和互动性的特点逐渐取代了报纸、广播等传统新闻传播媒介,成为了人们获取最新资讯的一种重要方式。由于互联网信息呈现爆炸式的增长,各个企业网站平台的数据规模越来越庞大,导致难以用常规的软件框架来对这些海量数据进行有效的处理。为了应对互联网中爆发式增长的海量数据,大数据处理技术应运而生,并在近年来得到了快速的发展。爬虫作为获取数据的一大利器之一,静态网站由于数据存储的格式以及爬取的相对简单,成为了数据获取的很重要的途径。而对于某些业务中,是需要其相关同行的数据,而数据本身,由于互联网的发展,以及深入人们生活的方方面面,数据变得越来越宝贵。
[0003]然而,随着互联网数据的海量增加以及复杂性,各式各样提供便利的网页反而对开发者使用这些源数据造成了很大的限制。数据爬取过程效率越来越低,速度越来越慢,同时造成了爬取数据过于庞杂,当需要对某一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于静态网站的数据爬取及事件分析方法,其特征在于,具体包括以下步骤:设定爬取的静态网站的类型,并选定所述类型的静态网站;根据所述静态网站,通过静态网页爬虫技术,爬取静态数据;对爬取数据进行预处理,按照标签进行整理,得到爬取数据库;根据所述爬取数据库进行特定事件检测,并对事件进行追踪,形成事件集。2.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述根据所述静态网站,通过静态网页爬虫技术,爬取静态数据,具体通过网页分割技术以及搜索算法爬取静态数据。3.根据权利要求1或2所述的数据爬取及事件分析方法,其特征在于,所述特定事件检测具体包括:通过分词、特征提取、特征降维以及文本聚类从所述爬取数据库中检测出所述特定事件的数据。4.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述根据所述静态网站,通过静态网页爬虫技术,爬取静态数据,具体包括:基于网页分割和搜索算法生成爬虫规则;根据所述爬虫规则,从所述静态网站爬取静态数据。5.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述基于网页分割和搜索算法生成爬虫规则,具体包括:使用爬虫技术爬取网页地址对应网页页面的源码;根据所述网页页面的源码,使用广度优先搜索算法,找到页面中所有的项;根据所述项,使用网页分割算法将页面中所有结构相同的项合并成一个分块;使用图像处理技术,将分块进行标记,选择分块并定义输入参数信息,生成服务信息和爬虫规则信息;所述爬虫规则信息包括对应服务调用的地址和查询参数。6.根据权利要求1所述的数据爬取及事件分析方法,其特征在于,所述对爬取数...

【专利技术属性】
技术研发人员:蔡婷
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1