一种数据补全方法技术

技术编号:38409627 阅读:12 留言:0更新日期:2023-08-07 11:16
本发明专利技术提供了一种数据补全方法,包括:获取当前需要进行数据补全的原始数据集,并进行数据预处理,得到处理数据集;基于处理数据集,构建对应的处理函数,并加入预设干扰因素对处理函数进行训练优化,从而得到第一补全数据;基于处理数据集,构建对应的生成式模型,并基于同类型历史数据进行模型优化,从而得到第二补全数据;将第一补全数据与第二补全数据进行结合,得到第三补全数据,利用处理数据集对第三补全数据进行再优化,并基于优化结果得到与原始数据集的特征相似度最高的补全数据。通过两种不同的方式来对数据集进行处理,得到两种数据补全结果,并将两种结果进行整合优化,可以使得数据补全结果更加精准,与现有的数据集也更加匹配。也更加匹配。也更加匹配。

【技术实现步骤摘要】
一种数据补全方法


[0001]本专利技术涉及数据补全领域,特别涉及一种数据补全方法。

技术介绍

[0002]目前,随着5G技术和互联网技术的不断发展,数据的安全问题越来越严重,因此对数据的要求越来越高,而在数据传输的过程中,会因为不能直接获得原始数据,而对数据分析和依靠数据的决策产生重大影响,因此通常会采用一些方式来进行数据补全。
[0003]然而,现有的数据补全方式因为方法单一,不能够精确的将缺失数据进行补全,而导致数据集出现偏差或不完整的现象。
[0004]因此,本专利技术提供了一种数据补全方法。

技术实现思路

[0005]本专利技术提供了一种数据补全方法,用以通过两种不同的方式来对需要进行数据补全的数据集进行处理,得到两种不同的数据补全结果,并将两种结果进行整合优化,可以使得数据补全结果更加精准,与现有的数据集也更加匹配,尽可能的提高数据的完整性。
[0006]本专利技术提供了一种数据补全方法,包括:步骤1:获取当前需要进行数据补全的原始数据集,并进行数据预处理,得到处理数据集;步骤2:基于处理数据集,构建对应的处理函数,并加入预设干扰因素对处理函数进行训练优化,从而得到第一补全数据;步骤3:基于处理数据集,构建对应的生成式模型,并基于同类型历史数据进行模型优化,从而得到第二补全数据;步骤4:将第一补全数据与第二补全数据进行结合,得到第三补全数据,利用处理数据集对第三补全数据进行再优化,并基于优化结果得到与原始数据集的特征相似度最高的补全数据。
[0007]在一种可能实现的方式中,获取当前需要进行数据补全的原始数据集,并进行数据预处理,得到处理数据集,包括:步骤11:获取当前需要进行数据补全的原始数据集,并判断原始数据集中每一数据的数据属性;步骤12:获取原始数据集中需要进行数据补全的数据所在位置,并进行编号;步骤13:基于所述数据属性将原始数据集中数据进行数据分类,并基于所述编号所在位置预测补全数据的数据属性,得到第一原始数据集;步骤14:对第一原始数据集进行数据预处理,得到处理数据集,并保留预测数据属性及对应编号,得到预测数据集。
[0008]在一种可能实现的方式中,基于处理数据集,构建对应的处理函数,并加入预设干扰因素对处理函数进行训练优化,从而得到第一补全数据,包括:
步骤21:基于处理数据集中的数据与数据之间的影响结果,构建对应的处理函数;步骤22:基于多个干扰因素的干扰结果对所述处理函数进行优化;步骤23:将处理数据集的数据输入到优化后的处理函数中,得到处理数据集中每一数据的影响结果,并得到每一数据对预测数据集中需要进行数据补全的数据的影响结果,从而进行数据预测;步骤24:基于数据预测结果得到预测补全数据,并将预测补全数据与预测数据集进行对应,得到第一补全数据。
[0009]在一种可能实现的方式中,基于处理数据集,构建对应的生成式模型,并基于同类型历史数据进行模型优化,从而得到第二补全数据,包括:步骤31:基于处理数据集中对应数据类型的预设数据预测方法,得到当前处理数据集对应的生成式模型;步骤32:获取数据库中与当前处理数据集中数据属于同种数据类型的历史数据集;将历史数据集与处理数据集进行比较,将历史数据集与处理数据集中对应位置存在缺失的数据进行提取,得到第二历史数据集,并基于剩余历史数据构建第三历史数据集;步骤33:基于生成式模型对第三历史数据集进行数据补全,并将数据补全结果与第二历史数据集的结果进行比较;若比较结果存在偏差,则基于第二历史数据集对生成式模型进行优化,反之,不需要进行模型优化;步骤34:基于优化结果,对处理数据集进行数据补全,得到第二补全数据。
[0010]在一种可能实现的方式中,将第一补全数据与第二补全数据进行结合,得到第三补全数据,利用处理数据集对第三补全数据进行再优化,包括:步骤41:基于第一补全数据与第二补全数据构建对应的第一补全数据表;其中,第一补全数据表为两行n列,且每列代表一种类型的数据,第一行代表第一补全数据,第二行代表第二补全数据;步骤42:当第一补全数据表中同列数据的数据重叠度为1时,提取当前列数据,得到第一数据提取结果;步骤43:当第一补全数据表中同列数据的数据重叠度小于1时,提取当前列数据,得到第二数据提取结果;步骤44:对第二数据提取结果中的数据进行逐一比较,确定是否存在同列类型相同但数据重叠度小于1的数据;若存在,则保留第二提取结果中第一补全数据对应的数据,构建第三数据提取结果,反之,保留第二提取结果中第一补全数据或第二补全数据对应的数据,构建第四数据提取结果;步骤45:基于第一数据提取结果与第三数据提取结果、第一数据提取结果与第四数据提取结果,进行整合得到第三补全数据;步骤46:基于获取到的第三补全数据填充入预测数据集中,并与处理数据集进行结合,在对应位置进行数据填充,并确定当前补全数据与处理数据集是否存在偏差;如存在偏差,则将偏差数据剔除,从而对第三补全数据进行优化,得到优化补全数
据。
[0011]在一种可能实现的方式中,基于优化结果得到与原始数据集的特征相似度最高的补全数据,包括:步骤51:对优化补全数据进行反处理,得到与原始数据集相适应的第二优化补全数据;步骤52:基于第二优化补全数据的对应数据编号与原始数据集中需要进行数据补全部分的数据编号进行匹配;步骤53:基于编号数据匹配结果,将对应的补全数据的数据特征与原始数据集中补全数据前后预设长度内的数据的数据特征进行比较;步骤54:基于比较结果,确定得到的第二优化补全数据是否为与原始数据集的特征相似度最高的补全数据,若是,则第二优化补全数据是原始数据集的最终优化补全数据。
[0012]在一种可能实现的方式中,基于编号匹配结果,将对应的补全数据的数据特征与原始数据集中补全数据前后预设长度内的数据的数据特征进行比较,包括:若比较结果的偏差度大于预设偏差度,则判断当前补全数据是否为第一补全数据表中数据重叠度为1的数据,若是,则判断当前数据补全存在偏差,并将偏差结果传输至数据处理终端;否则,判断当前补全数据是否为类型相同但数据重叠度小于1的数据,若为类型相同但数据重叠度小于1的数据,则将当前补全数据替换为对应的第二补全数据中的补全数据,若不为类型相同但数据重叠度小于1的数据,则判断当前数据补全存在偏差,并将偏差结果传输至数据处理终端。
[0013]在一种可能实现的方式中,基于优化结果得到与原始数据集的特征相似度最高的补全数据之后,还包括:将补全数据填充入原始数据集并进行数据流畅度验证,具体包括:步骤01:将所述最终优化补全数据按照对应编号填充入原始数据集的对应位置,得到补全数据集;步骤02:基于所述补全数据集传输至数据处理终端,并在数据处理终端对所述补全数据集进行数据流畅度确定;提取补全数据集中每一个数据的上一数据及下一数据,判断当前数据与上一数据的数据属性相似度及数据结构相似度,并基于对应的相似权重,确定当前数据的数据流畅度;步骤03:将所有数据的数据流畅度的平均值与预设标准数据流畅度进行比较;若所述数据流畅度的平均值高于预设标准数据流畅度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据补全方法,其特征在于,包括:步骤1:获取当前需要进行数据补全的原始数据集,并进行数据预处理,得到处理数据集;步骤2:基于处理数据集,构建对应的处理函数,并加入预设干扰因素对处理函数进行训练优化,从而得到第一补全数据;步骤3:基于处理数据集,构建对应的生成式模型,并基于同类型历史数据进行模型优化,从而得到第二补全数据;步骤4:将第一补全数据与第二补全数据进行结合,得到第三补全数据,利用处理数据集对第三补全数据进行再优化,并基于优化结果得到与原始数据集的特征相似度最高的补全数据。2.如权利要求1所述的一种数据补全方法,其特征在于,获取当前需要进行数据补全的原始数据集,并进行数据预处理,得到处理数据集,包括:步骤11:获取当前需要进行数据补全的原始数据集,并判断原始数据集中每一数据的数据属性;步骤12:获取原始数据集中需要进行数据补全的数据所在位置,并进行编号;步骤13:基于所述数据属性将原始数据集中数据进行数据分类,并基于所述编号所在位置预测补全数据的数据属性,得到第一原始数据集;步骤14:对第一原始数据集进行数据预处理,得到处理数据集,并保留预测数据属性及对应编号,得到预测数据集。3.如权利要求2所述的一种数据补全方法,其特征在于,基于处理数据集,构建对应的处理函数,并加入预设干扰因素对处理函数进行训练优化,从而得到第一补全数据,包括:步骤21:基于处理数据集中的数据与数据之间的影响结果,构建对应的处理函数;步骤22:基于多个干扰因素的干扰结果对所述处理函数进行优化;步骤23:将处理数据集的数据输入到优化后的处理函数中,得到处理数据集中每一数据的影响结果,并得到每一数据对预测数据集中需要进行数据补全的数据的影响结果,从而进行数据预测;步骤24:基于数据预测结果得到预测补全数据,并将预测补全数据与预测数据集进行对应,得到第一补全数据。4.如权利要求2所述的一种数据补全方法,其特征在于,基于处理数据集,构建对应的生成式模型,并基于同类型历史数据进行模型优化,从而得到第二补全数据,包括:步骤31:基于处理数据集中对应数据类型的预设数据预测方法,得到当前处理数据集对应的生成式模型;步骤32:获取数据库中与当前处理数据集中数据属于同种数据类型的历史数据集;将历史数据集与处理数据集进行比较,将历史数据集与处理数据集中对应位置存在缺失的数据进行提取,得到第二历史数据集,并基于剩余历史数据构建第三历史数据集;步骤33:基于生成式模型对第三历史数据集进行数据补全,并将数据补全结果与第二历史数据集的结果进行比较;若比较结果存在偏差,则基于第二历史数据集对生成式模型进行优化,反之,不需要进行模型优化;
步骤34:基于优化结果,对处理数据集进行数据补全,得到第二补全数据。5.如权利要求4所述的一种数据补全方法,其特征在于,将第一补全数据与第二补全数据进行结合,得到第三补全数据,利用处理数据集对第三补全数据进行再优化,包括:步骤41:基于第一补全数据与第二补全数据构建对应的第一补全数据表;其中,第一补全数据表为两行n列,且每列代表一种类型的数据,第一行代表第一补全数据,第二行代表第二补全数据;步骤42:当第一补全数据表中同列数据的数据重...

【专利技术属性】
技术研发人员:戚红建王宇飞韩硕秦子杨李宏亮徐蕾张强李伟于子明孙继耀
申请(专利权)人:中国华能集团有限公司北京招标分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1