A weather data acquisition method includes: grabbing weather data from a web page; parsing the missing values in the weather data; using ElasticNet algorithm for regression fitting to fill the missing values; using Moving_zscore algorithm to detect the outliers in the weather data and eliminate the outliers; and using Elas_zscore algorithm to eliminate the outliers. The ticNet algorithm performs regression fitting to fill out the outliers. The invention also provides a weather data acquisition device, a computer device and a readable storage medium. The invention can obtain weather data with high reliability and high accuracy.
【技术实现步骤摘要】
天气数据获取方法及装置、计算机装置及可读存储介质
本专利技术涉及数据处理
,具体涉及一种天气数据获取方法及装置、计算机装置和计算机可读存储介质。
技术介绍
天气数据在我们的日常生活中起着越来越重要的作用。例如,对于沿海地区和从事海上作业的人们来说,可以通过天气预报了解未来是否有台风或暴雨,减少不必要的损失。如何获得可靠的天气数据成为了一个巨大的挑战。传统的天气数据抓取仅仅是从网络上获取天气数据,缺少对天气数据的具体内容进行判定和处理的过程,因而获得的数据并不理想。
技术实现思路
鉴于以上内容,有必要提出一种天气数据获取方法及装置、计算机装置和计算机可读存储介质,其可以获得高可靠性、高准确率的天气数据。本申请的第一方面提供一种天气数据获取方法,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。另一种可能的实现方式中,所述从网页中抓取天气数据包括:生成面向天气信息网站的API接口的种子URL以及后续的URL;向所述天气信息网站的API接口发送HTTP请求,请求访问所述API接口;对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容;判断所述数据内容是否为预定信息内容;若所述数据内容为预定信息内容,则抓取所述数据内容;将抓取的数据内容作为所述天气数据保存到本地。另一种可能的实现方式中,假设t+1时刻的数据xt+1发生缺失,则所述利用El ...
【技术保护点】
1.一种天气数据获取方法,其特征在于,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving‑zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。
【技术特征摘要】
1.一种天气数据获取方法,其特征在于,所述方法包括:从网页中抓取天气数据;解析所述天气数据中的缺失值;利用ElasticNet算法进行回归拟合,填补所述缺失值;利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。2.如权利要求1所述的方法,其特征在于,所述从网页中抓取天气数据包括:生成面向天气信息网站的API接口的种子URL以及后续的URL;向所述天气信息网站的API接口发送HTTP请求,请求访问所述API接口;对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容;判断所述数据内容是否为预定信息内容;若所述数据内容为预定信息内容,则抓取所述数据内容;将抓取的数据内容作为所述天气数据保存到本地。3.如权利要求1所述的方法,其特征在于,假设t+1时刻的数据xt+1发生缺失,则所述利用ElasticNet算法进行回归拟合,填补所述缺失值包括:选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w,对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1],即得到24组数据集:[xt-w,xt-w+1,…,xt-1],[xt-w-1,xt-w,…,xt-2],[xt-w-2,xt-w-1,…,xt-3],…[xt-w-23,x1,…,xt-24];以所述24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x,集合x为:[[xt-w,xt-w+1,…,xt-2],[xt-w-1,xt-w,…,xt-3],[xt-w-2,xt-w-1,…,xt-4],…[xt-w-23,x1,…,xt-25]],集合y为:[[xt-1],[xt-2],[xt-3],…,[xt-24]];将训练数据的x值和y值输入ElasticNet模型中,用每一组的x值去拟合y值,训练ElasticNet模型;以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的ElasticNet模型中,得到ElasticNet模型输出的一个值,将该值作为缺失的xt+1。4.如权利要求1所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:阮晓雯,徐亮,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。