天气数据获取方法及装置、计算机装置及可读存储介质制造方法及图纸

技术编号:19009215 阅读:34 留言:0更新日期:2018-09-22 09:04
一种天气数据获取方法,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving‑zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。本发明专利技术还提供一种天气数据获取装置、计算机装置及可读存储介质。本发明专利技术可以获得高可靠性、高准确率的天气数据。

Weather data acquisition method and device, computer device and readable storage medium

A weather data acquisition method includes: grabbing weather data from a web page; parsing the missing values in the weather data; using ElasticNet algorithm for regression fitting to fill the missing values; using Moving_zscore algorithm to detect the outliers in the weather data and eliminate the outliers; and using Elas_zscore algorithm to eliminate the outliers. The ticNet algorithm performs regression fitting to fill out the outliers. The invention also provides a weather data acquisition device, a computer device and a readable storage medium. The invention can obtain weather data with high reliability and high accuracy.

【技术实现步骤摘要】
天气数据获取方法及装置、计算机装置及可读存储介质
本专利技术涉及数据处理
,具体涉及一种天气数据获取方法及装置、计算机装置和计算机可读存储介质。
技术介绍
天气数据在我们的日常生活中起着越来越重要的作用。例如,对于沿海地区和从事海上作业的人们来说,可以通过天气预报了解未来是否有台风或暴雨,减少不必要的损失。如何获得可靠的天气数据成为了一个巨大的挑战。传统的天气数据抓取仅仅是从网络上获取天气数据,缺少对天气数据的具体内容进行判定和处理的过程,因而获得的数据并不理想。
技术实现思路
鉴于以上内容,有必要提出一种天气数据获取方法及装置、计算机装置和计算机可读存储介质,其可以获得高可靠性、高准确率的天气数据。本申请的第一方面提供一种天气数据获取方法,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。另一种可能的实现方式中,所述从网页中抓取天气数据包括:生成面向天气信息网站的API接口的种子URL以及后续的URL;向所述天气信息网站的API接口发送HTTP请求,请求访问所述API接口;对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容;判断所述数据内容是否为预定信息内容;若所述数据内容为预定信息内容,则抓取所述数据内容;将抓取的数据内容作为所述天气数据保存到本地。另一种可能的实现方式中,假设t+1时刻的数据xt+1发生缺失,则所述利用ElasticNet算法进行回归拟合,填补所述缺失值包括:选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w,对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1],即得到24组数据集:[xt-w,xt-w+1,…,xt-1],[xt-w-1,xt-w,…,xt-2],[xt-w-2,xt-w-1,…,xt-3],…[xt-w-23,x1,…,xt-24];以所述24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x,集合x为:[[xt-w,xt-w+1,…,xt-2],[xt-w-1,xt-w,…,xt-3],[xt-w-2,xt-w-1,…,xt-4],…[xt-w-23,x1,…,xt-25]],集合y为:[[xt-1],[xt-2],[xt-3],…,[xt-24]];将训练数据的x值和y值输入ElasticNet模型中,用每一组的x值去拟合y值,训练ElasticNet模型;以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的ElasticNet模型中,得到ElasticNet模型输出的一个值,将该值作为缺失的xt+1。另一种可能的实现方式中,设天气数据为X=[x0,x1,x2,…,xt′],所述利用Moving-zscore算法检测所述天气数据中的异常值包括:(1)选取时间窗大小w′,针对时间点w′至时间点t′中的每个时间点i′,i′=w′,w′+1,…,t′,计算所述时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,所述时间点i′对应的时间窗的长度为w′;(2)根据每个时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,计算所述时间点i′对应的天气数据xi′的mz值mzi′,得到mz列表:[mzw′,mzw′+1,mzw′+2,…,mzt′],其中:(3)求mz列表的第α分位数作为阈值,得到mzα_percentage,α为预设值;(4)如果mzi′大于mzα_percentage,则对应第i′时刻的天气数据xi′为异常值。另一种可能的实现方式中,所述天气数据包括湿度、气温、气压、降水量、水汽压、风速、风向、日照时数。另一种可能的实现方式中,所述天气数据包括实时的天气数据、预报的天气数据和历史的天气数据。另一种可能的实现方式中,所述解析所述天气数据中的缺失值包括:将所述天气数据处理成行标签为时间信息、列标签为天气信息的矩阵;判断所述矩阵中是否存在列信息字段为空的数据;若所述矩阵中存在列信息字段为空的数据,则该列信息字段为空的数据为所述天气数据中的缺失值。本申请的第二方面提供一种天气数据获取装置,所述装置包括:抓取单元,用于从网页中抓取天气数据;解析单元,用于解析所述天气数据中的缺失值;第一填补单元,用于利用ElasticNet算法进行回归拟合,填补所述缺失值;检测单元,用于利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;第二填补单元,用于利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现所述天气数据获取方法。本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述天气数据获取方法。本专利技术从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。本专利技术可以获得高可靠性、高准确率的天气数据。附图说明图1是本专利技术天气数据获取方法的应用环境示意图。图2是本专利技术天气数据获取方法较佳实施例的流程图。图3是图2中步骤201的细化流程图。图4为本专利技术天气数据获取装置较佳实施例的结构图。图5是图4中抓取单元的细化结构图。图6为本专利技术计算机装置较佳实施例的示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。优选地,本专利技术的天气数据获取方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、可编程门阵列(Field-ProgrammableGateArray,FPGA)、数字处理器(DigitalSignalProcessor,DSP)、嵌入式设备等。所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可本文档来自技高网
...
天气数据获取方法及装置、计算机装置及可读存储介质

【技术保护点】
1.一种天气数据获取方法,其特征在于,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving‑zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。

【技术特征摘要】
1.一种天气数据获取方法,其特征在于,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。2.如权利要求1所述的方法,其特征在于,所述从网页中抓取天气数据包括:生成面向天气信息网站的API接口的种子URL以及后续的URL;向所述天气信息网站的API接口发送HTTP请求,请求访问所述API接口;对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容;判断所述数据内容是否为预定信息内容;若所述数据内容为预定信息内容,则抓取所述数据内容;将抓取的数据内容作为所述天气数据保存到本地。3.如权利要求1所述的方法,其特征在于,假设t+1时刻的数据xt+1发生缺失,则所述利用ElasticNet算法进行回归拟合,填补所述缺失值包括:选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w,对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1],即得到24组数据集:[xt-w,xt-w+1,…,xt-1],[xt-w-1,xt-w,…,xt-2],[xt-w-2,xt-w-1,…,xt-3],…[xt-w-23,x1,…,xt-24];以所述24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x,集合x为:[[xt-w,xt-w+1,…,xt-2],[xt-w-1,xt-w,…,xt-3],[xt-w-2,xt-w-1,…,xt-4],…[xt-w-23,x1,…,xt-25]],集合y为:[[xt-1],[xt-2],[xt-3],…,[xt-24]];将训练数据的x值和y值输入ElasticNet模型中,用每一组的x值去拟合y值,训练ElasticNet模型;以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的ElasticNet模型中,得到ElasticNet模型输出的一个值,将该值作为缺失的xt+1。4.如权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:阮晓雯徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1