【技术实现步骤摘要】
基于自适应遗传算法的气象数据缺失值填补方法
本专利技术属于数据处理
,涉及一种气象数据缺失值填补方法,具体涉及一种基于自适应遗传算法的气象数据的填补方法,可用于气象数据挖掘领域。
技术介绍
气象数据通常是从气象站采集而来,然而在自动气象站架设的区域,一方面由于电磁波或各类观测探测仪本身的原因或外界干扰的因素,以及自动气象站所处恶劣环境改变的不可预见性;另一方面,一些地方地形情况特殊以及环境气候恶劣,使得气象站点分布多而广、维护保障的人员数量较少,区域自动气象站的维护保障工作难以进行;除此之外,不准确的测量方式、收集条件的限制以及人工录入的遗漏都有可能导致自动气象站运行过程中采集的数据不可避免的将会出现缺失。大量的数据缺失对后期的数据统计、数据挖掘等工作都会产生不利的影响。例如,缺失值可能会直接影响新发现模式的准确性,导致错误的挖掘模型;缺失值的未知性,也会对正常的数据分布形成干扰,降低挖掘能力;数据值的缺失导致难以对数据进行合理分类,无法准确获取统计分析结果,从而影响最终决策。为了提供高质量的完整数据集,对数据集中的缺失值进行及时准确的填补,对于今后利用气象 ...
【技术保护点】
1.一种基于自适应遗传算法的气象数据缺失值填补方法,其特征在于,包括如下步骤:(1)设定气象数据集和缺失值:设定气象数据集R为n个向量Y1,Y2,…,Yj,…Yn的s维数据,Yj代表数据属性j,Yj=(x1j,x2j,…,xij,…,xsj)T,xij代表在i时刻属性为Yj的缺失值,T为转置符号;(2)利用线性插值法计算缺失值xij的估计值xBA:将Yj中距离缺失值xij在i时刻最近的前一相邻时刻和后一相邻时刻的真实气象数据代入线性插值函数中,得到缺失值xij的估计值xBA;(3)利用相关性分类法计算缺失值xij的估计值xRC:(3a)以R中与Yj相关性最大的属性所包含的数 ...
【技术特征摘要】
1.一种基于自适应遗传算法的气象数据缺失值填补方法,其特征在于,包括如下步骤:(1)设定气象数据集和缺失值:设定气象数据集R为n个向量Y1,Y2,…,Yj,…Yn的s维数据,Yj代表数据属性j,Yj=(x1j,x2j,…,xij,…,xsj)T,xij代表在i时刻属性为Yj的缺失值,T为转置符号;(2)利用线性插值法计算缺失值xij的估计值xBA:将Yj中距离缺失值xij在i时刻最近的前一相邻时刻和后一相邻时刻的真实气象数据代入线性插值函数中,得到缺失值xij的估计值xBA;(3)利用相关性分类法计算缺失值xij的估计值xRC:(3a)以R中与Yj相关性最大的属性所包含的数据随时间变化的趋势的相邻的极值点为参照,对缺失值xij所在的列数据进行分组,得到多个列数据组;(3b)从多个列数据组中选取缺失值xij所在的列数据组,并根据相关性公式计算R中缺失值xij所在的列数据组中缺失值xij所在的行与其他行的相关系数,得到多个相关系数值;(3c)通过多个相关系数中最大的相关系数,构造缺失值xij与最大相关系数的方程,其表达式为:其中,rmax为最大相关系数,i为气象数据所在的时刻,t和l分别为R中的数据属性,n为R中所有属性的总数,为i时刻所有数据的均值为l时刻所有数据的均值xit为属性t在i时刻的气象数据,xlt为属性t在l时刻的气象数据;(3d)将数据集R中的真实气象数据带入缺失值xij与最大相关系数的方程中,计算缺失值xij的估计值xRC;(4)建立遗传算法的目标函数:(4a)计算缺失值xij的填补值y,计算公式为:y=ω1xBA+ω2xRC其中,xBA为利用线性插值法计算缺失值xij的估计值,xRC为利用相关性分类法计算缺失值xij的估计值,ω1、ω2分别为xBA和xRC的权值系数,0≤ω1≤1,ω1+ω2=1;(4b)根据缺失值xij的填补值y和缺失值xij所在的列数据组中的真实气象数据,建立遗传算法的目标函数,其表达式为:Y=min|y-Sj|其中,min代表最小值符号,j为R中的属性,Sj为缺失值xij所在组的真实气象数据的集合,y为缺失值xij的填补值;(5)采用遗传算法计算缺失值xij的填补值:(5a)获取搜索最优xBA和xRC权值系数的初始群体:采用二进制基因编码方式表示随机产生的多个代表x...
【专利技术属性】
技术研发人员:殷磊,孔宪光,马洪波,王冉,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。