基于网络爬虫技术的电力营商环境信息采集系统技术方案

技术编号:33345703 阅读:37 留言:0更新日期:2022-05-08 09:40
本发明专利技术公开了一种基于网络爬虫技术的电力营商环境信息采集系统,包括信息采集模块、网页处理及下载模块、数据储存和展示模块,信息采集模块是整个爬虫系统实现的基础,输入关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,信息采集模块获得的只包含所需要采集网页的标题和链接,为了查看数据,需要对网页进行处理和下载,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成。本发明专利技术可以根据电力从业者的使用要求来制定不同的爬取要求,根据使用者输入的关键字,向互联网发送请求,找到相关的信息的URL,然后在对这些URL进行处理,实现以高效便捷的方式爬取需要的相关数据,以便显著提高爬虫的速度,具有很好的推广应用价值。应用价值。应用价值。

【技术实现步骤摘要】
基于网络爬虫技术的电力营商环境信息采集系统
[0001]
:本专利技术涉及互联网信息采集
,更具体地说,涉及一种基于网络爬虫技术的电力营商环境信息采集系统。
[0002]
技术介绍
:随着信息技术的快速发展,人类已经步入了大数据、云信息时代。目前全球网页总数已经超过了20亿,而且每天仍在以730万的数量不断增加。如此海量的信息里面包含了许多有价值的信息,但是如何找出这些信息中的价值就像大海捞针一样困难。
[0003]在我国的电网行业中,同样需要处理海量的信息量。我们需要从万维网上筛选出和电力营商环境相关的信息,并对这些信息进行处理,根据处理结果制定相应的执行方案。电力产业作为关系到国民经济的重要行业,积极应用相关技术推动其优化发展,是产业发展的必然趋势。
[0004]解决数据爆炸式增长带来的技术难题,网络爬虫技术应运而生。网络爬虫是一个自动下载网页的计算机程序(自动化脚本),能够从一个称之为种子集的URL集合中展开运行流程。具体来讲,它会将URL集合中的所有URL全部放入到某一个有序的待爬行队列中,按照一定顺序从中提取URL下被指定网页的页面,同本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫技术的电力营商环境信息采集系统,其特征在于,所述基于网络爬虫技术的电力营商环境信息采集系统包括以下模块:A、信息采集模块:信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;B、网页处理及下载模块:信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:

网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;

网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;

预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度...

【专利技术属性】
技术研发人员:燕跃豪宋建辉鲍薇孙晨光李连卷原征韩丽陈起
申请(专利权)人:河南煜晖能源科技有限公司郑州大学国家电网有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1