一种台风数据的质量评估与修复方法技术

技术编号:19480621 阅读:93 留言:0更新日期:2018-11-17 10:36
本发明专利技术涉及一种台风数据的质量评估与修复方法,所述方法包括以下步骤:步骤S1、获取原始台风数据;步骤S2、分析台风数据特性,对台风数据进行描述;步骤S3、台风数据质量评估,包括步骤S31:台风数据完整性评估;步骤S32:台风数据一致性评估;步骤S4、台风数据修复,且按照数据完整性修复、一致性修复的顺序对台风数据进行修复;包括步骤S41:台风数据完整性修复;步骤S42:台风数据一致性修复。其优点表现在:可以判断具有多要素的台风数据质量以及对其进行修复,为台风时间相似性度量奠定基础,使得相似台风的判定更加准确,可以为相关部门提供便捷的辅助决策,做好防护措施,减少其带来的经济损失和人员伤亡。

【技术实现步骤摘要】
一种台风数据的质量评估与修复方法
本专利技术涉及具有多要素的台风数据质量评估与修复
,具体地说,是一种台风数据的质量评估与修复方法。
技术介绍
随着信息技术的不断发展,数据呈爆炸式增长,数据质量问题已经引起高度重视。对于社会调查数据,文献(中国残联“动态更新第三方评估”课题组.社会调查及数据质量评估研究进展[J].调查世界,2017(10):60-65)按照社会调查的流程梳理了调查及其数据质量评估;对于周期性普查数据,文献(陶然.周期性普查数据质量评估方法与适用性研究[J].统计研究,2014,31(8):66-72)介绍了其评估方法及其适用性;对于关联数据,文献(姜恩波,王振蒙.关联数据质量评估研究综述[J].情报杂志,2016,35(4):171-176)对其质量评估进行了综述;对于作战数据,文献(刘立军.作战数据质量模型构建与质量评估[J].火炮发射与控制学报,2017,38(03):37-41)构建了质量评估模型对其质量进行评估。上述数据均没有涉及到海洋领域,文献(郑琳,刘艳,崔文林,等.海洋监测数据质量评估研究[J].海洋通报,2014(2):228-234)提出了海洋监测数据质量评估的方法,但是该方法主要针对正态分布的数据,而台风数据一般不满足正态分布。本专利技术研究台风数据的完整性和一致性评估与修复问题。目前,在数据完整性方面已经取得了一些研究结果,然而,现有研究结果均无法解决数据完整性评估。文献(BiswasJ,NaumannF,QiuQ.AssessingtheCompletenessofSensorData[C]//DatabaseSystemsforAdvancedApplications,InternationalConference,DASFAA2006,Singapore,April12-15,2006,Proceedings.DBLP,2006:717-732.)提出了一种在传感器网络环境下信息内容缺失模型,该方法适用于在传感器网络中对缺失数据进行实时监测。然而,在实际应用中,大量数据是历史数据,人们无法再现其获取的实时过程,因此无法用该方法来度量数据的完整性。文献(NakashimaH,WellmanM,WeissG,etal.Completenessofintegratedinformationsources[J].InformationSystems,2004,29(7):583-615)研究了在多信息源集成环境下,如何度量集成后的信息相对于所有信息源中信息的完整程度。该方法需要知道信息源的完整性,然后通过定义的集成操作来计算集成后的数据源的完整性。然而,在实际应用中,若没有记录集成数据的世系,则无法使用该方法来度量集成数据的完整性。除此以外,现有方法均没有考虑数据质量其他特性对完整性的影响。为了解决上述问题,文献(刘永楠,邹兆年,李建中,等.数据完整性的评估方法[J].计算机研究与发展,2013,50(s1):230-238)提出了一种具体的关系数据完整性度量,但该方法适合普通的关系数据,对具有时间特性的台风时间序列不适合。近年来随着数据质量越来越引起人们的重视,越来越多的规则被提出用来描述数据的一致性。主要有以下几种:否定约束、包含依赖、外键约束和函数依赖、聚集约束、元组生成和等值生成依赖.同时有多种修复方式,例如:对称差分修复、子集修复、基数修复、基于更新的修复、投影连接修复等。对于存在缺失数据的不完备系统,多采用如下几种方法进行处理:(1)丢弃具有缺失数据的记录;(2)进行缺失数据的填补;(3)采用模型对缺失数据进行预测;(4)直接针对不完备数据进行分析。丢弃具有缺失数据的记录是应用中最简单的一种缺失数据处理方法,但总体而言,丢弃具有缺失数据的记录不能充分利用数据资源,而且可能会严重影响到数据的客观性和所研究问题结论的正确性。对缺失数据进行填补,是为了在填补后的数据上完成具体问题的数据分析。简单而又常见的填补方法是全局常量填补法(globalconstant)和属性均值填补法(attributemean)。文献(DondersAR,GjVDH,StijnenT,etal.Review:agentleintroductiontoimputationofmissingvalues.[J].JournalofClinicalEpidemiology,2006,59(10):1087)研究指出:在大多数情况下,这些方法同丢弃具有缺失数据的记录一样会生成有偏的结果,对于具有时间属性的台风数据更加不适合。热平台填补(hotdeckimputation)和冷平台填补(colddeckimputation)都是典型的单一填补方法。热平台填补是将缺失值填补为与它最相似的一个对象的值,与均值填补法相比,变量的标准差与填补前比较接近,但使用不便,比较耗时。冷平台填补的填补值来自于其它数据源而不能是当前数据源,而本专利技术的台风数据都是一个数据源,因此不适合。有一些更复杂的填补方法,例如多重填补(multipleimputation),其通过填补多个值以对填补的不确定性做出评价,得到总体参数的估计值,而台风数据具有时间特性,不能用总体来代表某个时刻,该方法不适合于台风数据。采用模型对缺失数据进行预测的方法首先对输入的数据定义一个模型,然后基于该模型对未知参数进行极大似然(maximumlikelihood)估计,而台风数据无法进行似然估计,该方法不适合台风数据。台风作为影响我国最大的海洋灾害之一,仅2016年,共造成174人死亡、24人失踪,直接经济损失766.5亿元,因此,研究台风对防灾减灾、辅助决策等具有重要意义。台风相似性度量是进行路径预报、灾害预报等重要手段之一,研究其可以减少人员伤亡和经济损失。但是台风数据中普遍存在质量问题,导致分析结果存在偏差,无法提供准确的信息,造成灾害预报错误,带来不必要的财产损失和人员伤亡,因此,评估台风数据质量并对其进行修复是相似性度量的重要一部分。台风数据质量主要体现在完整性和一致性两个方面。已有文献综述了数据完整性和一致性的研究现状,这些方法主要围绕医学领域,几乎没有涉及海洋领域。已有文献在数据完整性和一致性方面的研究大多针对普通的关系数据,而台风数据是一类特殊的关系数据,具有时间属性,因此这些方法不适用于台风数据。海洋领域,已有文献通过抽样方法来检验海洋数据质量是否合格,并没有提出修复方法,目前,对海洋数据质量评估与修复研究还很少,而海洋数据的质量高低直接影响海洋预报等相关研究。因而,数据的广泛应用对数据质量的保障提出了迫切需求。中国专利文献CN201710447844.4,申请日20170614,专利名称为一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,开了一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;步骤二:小波分析;步骤三:随机选取样本,由人工经验初步标注类别标签;步骤四:基于支持向量机的多分类器学习;步骤五:加入无标签的数据样本XUL,利用局部搜索策略进行半监督学习,更新分类器。本专利技术利用了小波分解的信号特点来构建油耗数据的属性特征,具有针对性且能有效地提高本文档来自技高网...

【技术保护点】
1.一种台风数据的质量评估与修复方法,其特征在于,所述方法包括以下步骤:步骤S1、获取原始台风数据;步骤S2、分析台风数据特性,对台风数据进行描述;步骤S3、台风数据质量评估,包括步骤S31:台风数据完整性评估;步骤S32:台风数据一致性评估;步骤S4、台风数据修复,且按照数据完整性修复、一致性修复的顺序对台风数据进行修复;包括步骤S41:台风数据完整性修复;步骤S42:台风数据一致性修复。

【技术特征摘要】
1.一种台风数据的质量评估与修复方法,其特征在于,所述方法包括以下步骤:步骤S1、获取原始台风数据;步骤S2、分析台风数据特性,对台风数据进行描述;步骤S3、台风数据质量评估,包括步骤S31:台风数据完整性评估;步骤S32:台风数据一致性评估;步骤S4、台风数据修复,且按照数据完整性修复、一致性修复的顺序对台风数据进行修复;包括步骤S41:台风数据完整性修复;步骤S42:台风数据一致性修复。2.根据权利要求1所述的台风数据的质量评估与修复方法,其特征在于,步骤S2中台风数据描述包括以下步骤:步骤S21:选择多元台风时间序列的表示方法进行描述;步骤S22:筛选描述台风的要素;步骤S23:台风数据中移动方向表示,即将其转化成数值表示。3.根据权利要求2所述的台风数据的质量评估与修复方法,其特征在于,步骤S21中的多元台风时间序列定义如下:确定利用移动方向MD、移动速度MV、压强P、经度Lo和纬度La5个要素描述台风,具体表示如下:台风原始数据中的移动方向是采用十六风向图记录的,为了便于后续计算,需要对其进行数值表示,规定北为0,南为8,从北顺时针到南依次是1—7;从北逆时针到南依次是9—15。4.根据权利要求1所述的台风数据的质量评估与修复方法,其特征在于,步骤S31中的台风数据完整性评估包括:步骤S311:台风要素完整性评估;步骤S312:台风点完整性评估;步骤S313:台风序列完整性评估。5.根据权利要求1所述的台风数据的质量评估与修复方法,其特征在于,步骤S311中的台风要素完整性评估是指一个要素在时刻t时的完整程度,台风数据A中任意元组S和要素F,要素值S[F]的完整性记作CFC(S[F]),并表示为S[F]的函数,μ(S[F]),即CFC(S[F])=μ(S[F]),根据不同的应用,μ具有不同的形式,且函数μ定义为:步骤S312中的台风点完整性评估是指时刻t时台风所有要素的完整程度,对台风数据A中任意时刻t的数据S,S的完整性记作CSC(S),S的完整性可以由S中的要素值的完整性来判,则CSC(S)可以定义为:步骤S313中的台风序列完整性评估是指一条台风数据的完整程度,对于任意一条台风数据A,台风数据A的完整性记作CAC(A),A的完整性可以由台风数...

【专利技术属性】
技术研发人员:黄冬梅赵丹枫郑霞张烨宜刘新阳
申请(专利权)人:上海海洋大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1