【技术实现步骤摘要】
基于网络爬虫技术的电力营商环境信息采集系统
[0001]
:本专利技术涉及互联网信息采集
,更具体地说,涉及一种基于网络爬虫技术的电力营商环境信息采集系统。
[0002]
技术介绍
:随着信息技术的快速发展,人类已经步入了大数据、云信息时代。目前全球网页总数已经超过了20亿,而且每天仍在以730万的数量不断增加。如此海量的信息里面包含了许多有价值的信息,但是如何找出这些信息中的价值就像大海捞针一样困难。
[0003]在我国的电网行业中,同样需要处理海量的信息量。我们需要从万维网上筛选出和电力营商环境相关的信息,并对这些信息进行处理,根据处理结果制定相应的执行方案。电力产业作为关系到国民经济的重要行业,积极应用相关技术推动其优化发展,是产业发展的必然趋势。
[0004]解决数据爆炸式增长带来的技术难题,网络爬虫技术应运而生。网络爬虫是一个自动下载网页的计算机程序(自动化脚本),能够从一个称之为种子集的URL集合中展开运行流程。具体来讲,它会将URL集合中的所有URL全部放入到某一个有序的待爬行队列中,按照一定顺序从中提取URL下 ...
【技术保护点】
【技术特征摘要】
1.一种基于网络爬虫技术的电力营商环境信息采集系统,其特征在于,所述基于网络爬虫技术的电力营商环境信息采集系统包括以下模块:A、信息采集模块:信息采集模块是整个爬虫系统实现的基础,它的原理类似于浏览器搜索引擎,输入需要搜索的关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,并将包含这些信息的网页的URL和该网页的标题下载下来,在这个过程中,通过设置,让其只检索在某一个时间段更新的网页,提高检索的效率和保证检索信息的时效性,当满足要求的网页都检索完成后,再将下载下来的结果储存在一个excel表格里;B、网页处理及下载模块:信息采集模块获得的只包含所需要采集网页的标题和链接,为了方便查看数据,需要对网页进行处理和下载,这一过程包括网页解析模块、网页过滤模块、预处理模块和网页分析模块:
①
网页解析模块:该模块是衔接其他模块的中枢,是整个爬虫系统的主要部分,它提取采集的HTML形式网页中的重要信息链接、文本,同时利用获取的内容信息为后期网页的主题相关度计算作铺垫;
②
网页过滤模块:该模块用来筛选与主题有关的URL,通过筛选抓取与主题相关的页面,确保主题爬虫系统的准确率;
③
预处理模块:该模块将网页解析模块获取的网页内容信息进行处理,通过对文本分词、去停用词、词干化等预处理,将文本内容转换为计算机能够识别的数学模型,为后期主题网络爬虫中网页分析模块进行主题相似度...
【专利技术属性】
技术研发人员:燕跃豪,宋建辉,鲍薇,孙晨光,李连卷,原征,韩丽,陈起,
申请(专利权)人:河南煜晖能源科技有限公司郑州大学国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。