【技术实现步骤摘要】
一种基于网络爬虫技术的水文水质数据采集方法及系统
本专利技术涉及数据采集、分析领域,更具体地说,涉及一种基于网络爬虫技术的水文水质数据采集方法及系统。
技术介绍
随着各种各样信息系统的应用,一个长期被忽视的问题逐渐浮出水面,这就是数据采集的问题。现今,数据采集问题已成为限制各种信息系统效能发挥的瓶颈和短板,如何快速、有效采集数据成为人们关注的重点。随着互联网的发展,在庞大的网络信息中,人们可以通过一定的手段来获取想要获取的知识。对于不同的数据个体而言,需要摄取的知识是不相同的,该类现象很大程度上增加了目标信息获取的难度,因此网络爬虫这个概念就被提出来,网络爬虫具有较强的专业性,能对众多的Web页面实现有效的查询,在海量的互联网信息中,抓取有效信息并存储。现阶段下,网络爬虫技术是解决数据采集问题的利器,在各种各样信息系统中都有运用这项技术。其中,以专利“专利技术名称:一种基于医疗系统爬虫提取数据的方法,专利公开号:CN111078976A”为例,该专利技术中公开了基于网络爬虫技术从医疗系统数据库中,爬取病人的医 ...
【技术保护点】
1.一种基于网络爬虫技术的水文水质数据采集系统,其特征在于,包括以下模块:/n数据采集模块,用于通过网页监控提醒插件进行目标网站下水质、水文数据的实时监控;监控过程中,采用网络爬虫技术,对于监控到的水质数据,在爬取得到后续用于水质数据解析的json文件后,基于Python对象的解码,将json文件中已编码的json字符串解码为Python对象后,得到水质数据;对于监控到的水文数据,在爬取得到包括网页内容的xml文件后,通过Xpath语法选取xml文件中的节点或节点集合,进行网页内容解析,得到水文数据;/n数据处理模块,用于建立了服务器与用户之间的连接会话后,按照预设的检索条 ...
【技术特征摘要】
1.一种基于网络爬虫技术的水文水质数据采集系统,其特征在于,包括以下模块:
数据采集模块,用于通过网页监控提醒插件进行目标网站下水质、水文数据的实时监控;监控过程中,采用网络爬虫技术,对于监控到的水质数据,在爬取得到后续用于水质数据解析的json文件后,基于Python对象的解码,将json文件中已编码的json字符串解码为Python对象后,得到水质数据;对于监控到的水文数据,在爬取得到包括网页内容的xml文件后,通过Xpath语法选取xml文件中的节点或节点集合,进行网页内容解析,得到水文数据;
数据处理模块,用于建立了服务器与用户之间的连接会话后,按照预设的检索条件对数据采集模块中采集到的水文、水质数据进行检索,基于检索结果,设定分析条件,输出水文、水质分析结果。
2.根据权利要求1所述的水文水质数据采集系统,其特征在于,所述数据采集模块包括网络爬虫模块;其中:
对于监控到的水质数据,当通过抓包分析工具分析出目标网站的URL后,所述网络爬虫模块下通过Python中的requests库发送post请求,得到用于后期进行水质数据解析的json文件后,通过json库,将json文件中已编码的JSON字符串解码为Python对象,得到水质数据;
对于监控到的水文数据,所述网络爬虫模块下结合Python+Selenium+Chrome的爬虫框架来获取包括网页内容的xml文件。
3.根据权利要求2所述的水文水质数据采集系统,其特征在于,所述数据采集模块包括网页监视器模块和邮箱监视器模块,其中:
所述网页监视器模块,用于采用浏览器中设置的DistillWebMonitor插件,每隔一段时间执行对所述目标网站的实时数据监控,并在目标网站存在数据更新时,通过电子邮件发送爬取提醒信息到邮箱监视器模块;其中,在进行水质数据监控时包括通过Xpath语法确认水质数据的测量时间,当被监控到的所述水质数据的测量时间发生改变时,发送爬取提醒信息;
所述邮箱监视器模块,用于读取邮箱所有邮件并返回一个邮件列表,同时在读取邮件的时候记录邮件数量,当判断存在新增邮件时,读取邮件列表中对应新增邮件的内容,根据爬取提醒信息确定目标网站存在数据更新时,驱动网络爬虫模块进行数据爬取。
4.根据权利要求3所述的水文水质数据采集系统,其特征在于,调用Python中的定时任务调度框架,每隔一段时间启动邮箱监视模块;
所述邮箱监视器模块下,邮件列表中按照先进先出的队列存储方式进行数据存储;若新增邮件数量为1,则读取邮件列表索引值为0的邮件,并在读取邮件内容的时候,通过正则表达式进行邮件内容的解析。
5.根据权利要求1所述的水文水质数据采集系统,其特征在于,所述水文水质数据采集系统还包括数据存储模块;
所述数据存储模块调用Python中的pymongo库进行水文、水质数据的存储。
6.根据权利要求5所述的水文水质数据采集系统,其特征在于,所述数据存储模块包括站点信息建立模块;
所述站点信息模块,用于采用bjson格式建立全国水文水质站点表、水文站点表、水质站点表、水文数据表和水质数据表;其中:
全国水文水质站点信息表,用于存储全国水文水质站点名称与地理坐标;
水文站点表,用于存储被爬取的水文站点名称;
水质站点表,用于存储被爬取的水质站点名称;
水文数据表,用于存储爬取得到的若干项水文要素;
水质数据表,用于存储爬取得到的若干项水质要素;
所述水文、水质数据表中均包括站点测量时间。
7.根据权利要求6所述的水文水质数据采集系统,其特征在于,所述数据采集模块还包括去重模块;
所述去重模块,用于在从站点信息建立模块中获取到水文、水质数据表后,进...
【专利技术属性】
技术研发人员:谢天奕,王永桂,李强,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。