疑误数据处理模型训练方法、系统、计算机及存储介质技术方案

技术编号:37673659 阅读:11 留言:0更新日期:2023-05-26 04:36
本发明专利技术提供了一种疑误数据处理模型训练方法、系统、计算机及存储介质,该方法包括:获取原始历史疑误数据,并根据观测要素对原始历史疑误数据进行分类处理,以生成若干对应的特征数据表,每一特征数据表均包括目标值以及若干特征值;依次对目标值以及若干特征值添加标注值,以生成对应的目标特征数据表,并将目标特征数据表存储至目标文档中;基于目标文档对预设决策树机器学习算法进行训练,并训练出对应的决策树模型,以使决策树模型处理实时生成的疑误数据。通过上述方式能够省去人工手动对疑误数据的处理分析过程,从而能够自动的、全面的对疑误数据进行处理,大幅提升了疑误数据的处理效率。的处理效率。的处理效率。

【技术实现步骤摘要】
疑误数据处理模型训练方法、系统、计算机及存储介质


[0001]本专利技术涉及数据处理
,特别涉及一种疑误数据处理模型训练方法、系统、计算机及存储介质。

技术介绍

[0002]现有的气象部门大部分都会使用气象资料业务系统,用于实时记录并存储气象数据,对应提升了气象数据的处理效率。
[0003]现有的气象资料业务系统在记录气象数据的过程中难免会产生疑误数据,为了避免给气象结果带来偏差,需要及时的发现并处理产生的疑误数据,然而,现有技术大部分通过人工手动的方式处理能够被发现的疑误数据,从而容易出现疑误数据处理不全面的现象,进而给气象结果带来了偏差。

技术实现思路

[0004]基于此,本专利技术的目的是提供一种疑误数据处理模型训练方法、系统、计算机及存储介质,以解决现有技术大部分通过人工手动的方式处理能够被发现的疑误数据,从而容易出现疑误数据处理不全面的现象,进而给气象结果带来了偏差的问题。
[0005]本专利技术实施例第一方面提出了一种疑误数据处理模型训练方法,所述方法包括:获取原始历史疑误数据,并根据观测要素对所述原始历史疑误数据进行分类处理,以生成若干对应的特征数据表,每一所述特征数据表均包括目标值以及若干特征值;依次对所述目标值以及若干所述特征值添加标注值,以生成对应的目标特征数据表,并将所述目标特征数据表存储至目标文档中;基于所述目标文档对预设决策树机器学习算法进行训练,并训练出对应的决策树模型,以使所述决策树模型处理实时生成的疑误数据。
[0006]本专利技术的有益效果是:通过获取原始历史疑误数据,并根据观测要素对原始历史疑误数据进行分类处理,以生成若干对应的特征数据表,其中,每一特征数据表均包括目标值以及若干特征值;进一步的,依次对目标值以及若干特征值添加标注值,以生成对应的目标特征数据表,并将目标特征数据表存储至目标文档中;最后只需基于目标文档对预设决策树机器学习算法进行训练,并训练出对应的决策树模型,以使决策树模型处理实时生成的疑误数据。通过上述方式能够在气象资料业务系统识别到疑误数据时,自动通过训练好的决策树模型对识别出的疑误数据进行处理,并生成对应的疑误数据处理结果,从而省去了人工手动对疑误数据的处理分析过程,从而能够自动的、全面的对疑误数据进行处理,大幅提升了疑误数据的处理效率,有利于提升气象部门的工作效率。
[0007]优选的,所述根据观测要素对所述原始历史疑误数据进行分类处理,以生成若干对应的特征数据表的步骤包括:当获取到所述原始历史疑误数据时,检测出所述原始历史疑误数据包含的观测要素,并对所述观测要素进行拆分处理,以将所述原始历史疑误数据拆分成若干对应的观测
要素数据集,每一所述观测要素分别对应一个所述观测要素数据集,所述观测要素包括气温、气压、风向、风速、相对湿度、蒸发量、日照、能见度以及地温;逐一识别出每一所述观测要素数据集包含的若干特征值,并根据若干所述特征值预测出对应的目标值,以根据所述目标值以及若干所述特征值生成所述特征数据表。
[0008]优选的,所述逐一识别出每一所述观测要素数据集包含的若干特征值,并根据若干所述特征值预测出对应的目标值的步骤包括:筛选出每一所述观测要素数据集中的若干特征值包含的特征信息,所述特征信息包括质控结果描述信息、与所述质控结果描述信息对应的疑误类型信息以及观测要素信息;建立所述质控结果描述信息、所述疑误类型信息以及所述观测要素信息三者之间的映射关系,所述映射关系具有唯一性,所述疑误类型信息包括错误、可疑以及缺测,所述观测要素信息包括观测值;根据所述映射关系在预设结论数据库中预测出对应的目标处理方式,并将所述目标处理方式的处理结果设定为所述目标值。
[0009]优选的,所述根据所述映射关系在预设结论数据库中预测出对应的目标处理方式的步骤包括:当获取到所述映射关系时,根据所述映射关系查找出与当前所述观测要素数据集对应的目标观测站点,并确定出当前所述观测要素数据集在所述目标观测站点中的目标观测要素,所述目标观测站点包括国家站以及区域站;根据所述目标观测要素在所述预设结论数据库中预测出对应的所述目标处理方式。
[0010]优选的,所述依次对所述目标值以及若干所述特征值添加标注值,以生成对应的目标特征数据表的步骤包括:逐一在与所述目标值以及若干所述特征值对应的预设位置处添加标注栏,并根据预设规则在所述标注栏中逐一添加对应的标注值,其中,每一所述目标值以及每一所述特征值对应的标注值均具有唯一性;分别建立所述目标值和所述特征值与所述标注值之间的映射关系,以生成所述目标特征数据表。
[0011]优选的,所述基于所述目标文档对预设决策树机器学习算法进行训练的步骤包括:对所述预设决策树机器学习算法进行初始化处理,并将所述目标文档输入至初始化处理后的决策树机器学习算法中,以使初始化处理后的决策树机器学习算法识别出所述目标文档中的疑误信息以及疑误数据流转信息;通过所述疑误信息以及所述疑误数据流转信息对初始化处理后的决策树机器学习算法进行分类学习,以完成所述预设决策树机器学习算法的训练。
[0012]优选的,所述通过所述疑误信息以及所述疑误数据流转信息对初始化处理后的决策树机器学习算法进行分类学习,以完成所述预设决策树机器学习算法的训练的步骤包括:当分别获取到所述疑误信息以及所述疑误数据流转信息时,根据所述疑误信息生
成对应的若干训练样本,并根据所述疑误数据流转信息生成对应的若干训练节点,每一所述训练样本和每一所述训练节点均具有唯一性;基于CART算法将每一所述训练样本转换成对应的若干特征向量,并将若干所述特征向量分别对应输入至若干所述训练节点中,以对每一所述训练节点进行对应的生长学习并生成若干对应的子节点;对若干所述子节点进行持续生长学习,并判断若干所述子节点分别对应的特征属性是否满足预设条件,每一所述子节点分别对应一类特征属性;若检测到若干所述子节点分别对应的特征属性值满足所述预设条件,将所述训练节点设定为叶节点、将生长学习完成的子节点设定为非叶节点,并将所述叶节点和所述非叶节点同时输入至所述预设决策树机器学习算法中,以训练出对应的目标决策树模型。
[0013]本专利技术实施例第二方面提出了一种疑误数据处理模型训练系统,所述系统包括:获取模块,用于获取原始历史疑误数据,并根据观测要素对所述原始历史疑误数据进行分类处理,以生成若干对应的特征数据表,每一所述特征数据表均包括目标值以及若干特征值;标注模块,用于依次对所述目标值以及若干所述特征值添加标注值,以生成对应的目标特征数据表,并将所述目标特征数据表存储至目标文档中;训练模块,用于基于所述目标文档对预设决策树机器学习算法进行训练,并训练出对应的决策树模型,以使所述决策树模型处理实时生成的疑误数据。
[0014]其中,上述疑误数据处理模型训练系统中,所述获取模块具体用于:当获取到所述原始历史疑误数据时,检测出所述原始历史疑误数据包含的观测要素,并对所述观测要素进行拆分处理,以将所述原始历史疑误数据拆分成若干对应的观测要素数据集,每一所述观测要素分别对应一个所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种疑误数据处理模型训练方法,其特征在于,所述方法包括:获取原始历史疑误数据,并根据观测要素对所述原始历史疑误数据进行分类处理,以生成若干对应的特征数据表,每一所述特征数据表均包括目标值以及若干特征值;依次对所述目标值以及若干所述特征值添加标注值,以生成对应的目标特征数据表,并将所述目标特征数据表存储至目标文档中;基于所述目标文档对预设决策树机器学习算法进行训练,并训练出对应的决策树模型,以使所述决策树模型处理实时生成的疑误数据。2.根据权利要求1所述的疑误数据处理模型训练方法,其特征在于:所述根据观测要素对所述原始历史疑误数据进行分类处理,以生成若干对应的特征数据表的步骤包括:当获取到所述原始历史疑误数据时,检测出所述原始历史疑误数据包含的观测要素,并对所述观测要素进行拆分处理,以将所述原始历史疑误数据拆分成若干对应的观测要素数据集,每一所述观测要素分别对应一个所述观测要素数据集,所述观测要素包括气温、气压、风向、风速、相对湿度、蒸发量、日照、能见度以及地温;逐一识别出每一所述观测要素数据集包含的若干特征值,并根据若干所述特征值预测出对应的目标值,以根据所述目标值以及若干所述特征值生成所述特征数据表。3.根据权利要求2所述的疑误数据处理模型训练方法,其特征在于:所述逐一识别出每一所述观测要素数据集包含的若干特征值,并根据若干所述特征值预测出对应的目标值的步骤包括:筛选出每一所述观测要素数据集中的若干特征值包含的特征信息,所述特征信息包括质控结果描述信息、与所述质控结果描述信息对应的疑误类型信息以及观测要素信息;建立所述质控结果描述信息、所述疑误类型信息以及所述观测要素信息三者之间的映射关系,所述映射关系具有唯一性,所述疑误类型信息包括错误、可疑以及缺测,所述观测要素信息包括观测值;根据所述映射关系在预设结论数据库中预测出对应的目标处理方式,并将所述目标处理方式的处理结果设定为所述目标值。4.根据权利要求3所述的疑误数据处理模型训练方法,其特征在于:所述根据所述映射关系在预设结论数据库中预测出对应的目标处理方式的步骤包括:当获取到所述映射关系时,根据所述映射关系查找出与当前所述观测要素数据集对应的目标观测站点,并确定出当前所述观测要素数据集在所述目标观测站点中的目标观测要素,所述目标观测站点包括国家站以及区域站;根据所述目标观测要素在所述预设结论数据库中预测出对应的所述目标处理方式。5.根据权利要求1所述的疑误数据处理模型训练方法,其特征在于:所述依次对所述目标值以及若干所述特征值添加标注值,以生成对应的目标特征数据表的步骤包括:逐一在与所述目标值以及若干所述特征值对应的预设位置处添加标注栏,并根据预设规则在所述标注栏中逐一添加对应的标注值,其中,每一所述目标值以及每一所述...

【专利技术属性】
技术研发人员:周晓香袁正国胡佳军李洪康李志鹏徐全倩赖亮邱亮戴华玲
申请(专利权)人:江西省气象数据中心江西省气象档案馆
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1