一种数据重构方法、系统及存储介质技术方案

技术编号:38389210 阅读:9 留言:0更新日期:2023-08-05 17:42
本发明专利技术公开了一种数据重构方法、系统及存储介质,属于数据处理技术领域,包括步骤S1:建立数据预测模型,确定需要收集的目标数据;步骤S2:设置数据特征,基于数据特征将目标数据划分为多种数据类型,在目标数据内标注数据标签;步骤S3:将分类后的目标数据进行重构,获得重构数据;步骤S4:设置权重范围,分别从权重范围内抽取初始权重,基于数据类型,将初始权重赋予对应的目标数据;步骤S5:设置评价规则,将目标数据输入至数据预测模型中,若输出结果不满足评价规则,则基于输出结果调整初始权重,直至获得其满足评价规则;本发明专利技术从数据本身的属性出发,提供一种数据重构方法,从而实现了对收集到的原始数据进行有效分类和处理。对收集到的原始数据进行有效分类和处理。对收集到的原始数据进行有效分类和处理。

【技术实现步骤摘要】
一种数据重构方法、系统及存储介质


[0001]本专利技术属于数据处理
,具体涉及一种数据重构方法、系统及存储介质。

技术介绍

[0002]随着人工智能及大数据技术的发展,出现了许多基于人工智能的数据分析模型,通过数据分析模型可以对收集到的历史数据进行处理,从而对未来进行一定程度的预测和规划,现有技术中,一般是基于机器学习等技术建立数据模型;针对当前流行的大模型,需要收集海量的数据对其进行训练,并根据训练结果调整模型参数,然而海量的数据必然包含各种各样的信息,那么数据中必然包含许多偶然性或毫无意义的重复性数据,例如在工厂产品质量管理中,通过收集产品的历史生产记录数据,通过对其进行数据分析,以获取对未来产品质量及产品生产时间的预测,从而帮助企业制定产品生产计划,但是,由于产品型号、质量要求等会随着时间更新迭代,会使得部分历史数据不再适用,亦或是同一个产品的两个数据之间存在线性关系,就会数据之间存在冗余,因此,即便将上述数据输入至模型中,也不会提升模型的训练效果;另外,大多数情况下我们无法在源头对数据的采集过程进行监督,当数据采集过程出现错误,也会使得大数据中出现异常值,最具代表性的例子是工厂通过传感器采集产品质量数据,但是采集过程是不可控的,其中可能会存在由于传感器异常而采集到偏离常规值较大的数据,若不经筛选直接将数据输入至模型中,也会影响模型的训练效果;基于上述原因,使得当前收集到的数据并不总是正确的,存在许多不确定性,若将此种数据直接输入至机器学习模型中,一方面会导致算力的浪费,另一方面,也会对模型的预测准确度产生影响。
[0003]为避免上述的情况的发生,需要对收集到的数据进行预处理,现有技术中提出了以下处理方法,如中国专利申请CN108304427B公开了一种用户客群分类方法和装置,该方法首先采集多个用户的用户数据,按照预设策略从这些用户数据中选择数据样本,然后,对这些数据样本进行聚类运算,并分别对每个聚类中的数据样本进行去冗余操作,得到待训练样本集,再基于该待训练样本集进行分类模型训练,并根据训练后分类模型对待分类数据进行客群分类;又例如中国专利申请CN108304427B公开了一种多数据来源的数据融合方法、装置、电子设备及存储介质,该方法首先从客户端中获取原始待融合数据集、训练特征集和训练特征标签集,对原始待融合数据集进行数据映射操作,得到标准待融合数据集,利用训练特征集和训练特征标签集,训练预构建的原始融合模型,得到标准融合模型,将标准待融合数据集输入至标准融合模型进行融合操作得到融合数据,从而降低原始数据的复杂度。
[0004]然而,上述数据处理方法并未从数据来源和性质,对数据的重要性进行划分,而用于预测的数据中存在偶然性数据,而偶然性数据对未来的预测是没有意义的,若偶然性数据的权重过大,就会浪费模型的算力;因此,本专利技术提供一种数据重构方法,以实现对收集到的原始数据进行有效分类和处理。

技术实现思路

[0005]基于上述目的,本专利技术提供了一种数据重构方法、系统及存储介质,以实现对大数据的分类和预处理。
[0006]为了达到上述的专利技术目的,本专利技术提出一种数据重构方法,包括:步骤S1:基于预测目标建立数据预测模型,确定所述数据预测模型的输入特征和输出特征,基于所述输入特征和所述输出特征确定需要收集的目标数据,以及存储所述目标数据的数据库;步骤S2:从所述数据库内抓取所述目标数据,设置数据特征,基于所述数据特征对所述目标数据进行分类,将所述目标数据划分为多种数据类型,所述数据特征包括时间特征、属性特征、数值特征和相似度特征,基于所述时间特征将所述目标数据划分为历史数据和边际数据,基于所述属性特征将所述目标数据划分为自然数据和行为数据,基于所述数值特征将所述目标数据划分为必然数据和偶然数据,基于所述相似度特征将所述目标数据划分为重复数据和非重复数据,在所述目标数据内标注数据标签,数据标签与所述目标数据的所述数据类型对应;步骤S3:基于所述数据类型,将分类后的所述目标数据进行重构,获得重构数据;步骤S4:针对每种所述重构数据设置权重范围,分别从所述权重范围内抽取初始权重,将所述初始权重赋予对应的所述重构数据;步骤S5:设置评价规则,将所述重构数据输入至所述数据预测模型中,判断所述数据预测模型的输出结果是否满足所述评价规则,若所述输出结果不满足所述评价规则,则基于所述输出结果调整所述初始权重,直至获得其满足所述评价规则。
[0007]进一步的,对所述目标数据进行重构包括以下步骤:获取历史数据,基于时间特征对所述历史数据进行分箱;获取自然数据,所述自然数据包括无价值数据和冗余数据,建立价值词典,所述价值词典包括数据名称和对应的价值等级,设定临界价值等级,基于所述目标数据对应的所述价值等级和所述临界价值等级,将低于所述临界价值等级的所述自然数据划分为所述无价值数据,并将其剔除;获取偶然数据,所述偶然数据包括异常值数据和离群数据,定位所述偶然数据中的所述异常值数据,将所述异常值数据剔除,定位所述偶然数据中的离群数据,将所述离群数据划分为多个群组,基于所述群组单独建立预测子模型;获取所述重复数据,将所述重复数据删除进一步的,所述相似度特征包括匹配度,定义对比的所述目标数据分别为第一数据和第二数据,获取所述第一数据与所述第二数据的所述匹配度,设置第一阈值,若所述匹配度大于所述第一阈值,则在所述第一数据和所述第二数据内标注对应所述重复数据的数据标签;进一步的,获取所述第一数据和所述第二数据的所述匹配度包括以下步骤:步骤S21:抽取所述第一数据和所述第二数据的第一名称和第二名称,获取所述第一名称和所述第二名称的第一相似度;步骤S22:若所述第一数据和所述第二数据分别包括多个第一子数据和第二子数据,继续获取所述第一子数据的第一方差和所述第二子数据的第二方差,计算所述第一方
差和所述第二方差的第一差值,若所述第一差值在小于第二阈值,则继续执行步骤S23;步骤S23:获取所述第一子数据和所述第二子数据的第二相似度,基于第一公式计算所述匹配度,所述第一公式为:,其中,和分别为所述第一相似度和所述第二相似度,和分别对应的第一系数和第二系数。
[0008]进一步的,获取所述第二相似度包括以下步骤:步骤S231:获取所述第一子数据和所述第二子数据的第一数量和第二数量,计算所述第一数量和所述第二数量的第二差值,若所述第二差值为0,则执行步骤S232,若所述第二差值小于第三阈值且不为0,则补充所述第一子数据或所述第二子数据,直至所述第一数量与所述第二数量相同,若所述第二差值大于所述第三阈值,则将所述第二相似度设置为0;步骤S232:建立坐标系,基于所述第一子数据和所述第二子数据分别生成第一函数和第二函数,分别将第一函数和第二函数绘制于所述坐标系内,获得第一曲线和第二曲线,计算所述第一曲线和所述第二曲线与所述坐标系围成的第一面积和第二面积,基于第二公式获取所述第二相似度,所述第二公式为:,其中,和分别为所述第一面积和所述第二面积,为返回和中的最小的值,为返回和中的最大的值。
[0009]进一步的,基于以下步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据重构方法,其特征在于,包括:步骤S1:基于预测目标建立数据预测模型,确定所述数据预测模型的输入特征和输出特征,基于所述输入特征和所述输出特征确定需要收集的目标数据,以及存储所述目标数据的数据库;步骤S2:从所述数据库内抓取所述目标数据,设置数据特征,基于所述数据特征对所述目标数据进行分类,将所述目标数据划分为多种数据类型,所述数据特征包括时间特征、属性特征、数值特征和相似度特征,基于所述时间特征将所述目标数据划分为历史数据和边际数据,基于所述属性特征将所述目标数据划分为自然数据和行为数据,基于所述数值特征将所述目标数据划分为必然数据和偶然数据,基于所述相似度特征将所述目标数据划分为重复数据和非重复数据,在所述目标数据内标注数据标签,数据标签与所述目标数据的所述数据类型对应;步骤S3:基于所述数据类型,将分类后的所述目标数据进行重构,获得重构数据;步骤S4:针对每种所述重构数据设置权重范围,分别从所述权重范围内抽取初始权重,将所述初始权重赋予对应的所述重构数据;步骤S5:设置评价规则,将所述重构数据输入至所述数据预测模型中,判断所述数据预测模型的输出结果是否满足所述评价规则,若所述输出结果不满足所述评价规则,则基于所述输出结果调整所述初始权重,直至获得其满足所述评价规则。2.根据权利要求1所述的一种数据重构方法,其特征在于,所述步骤S3中,对所述目标数据进行重构包括以下步骤:获取历史数据,基于时间特征对所述历史数据进行分箱;获取自然数据,所述自然数据包括无价值数据和冗余数据,建立价值词典,所述价值词典包括数据名称和对应的价值等级,设定临界价值等级,基于所述目标数据对应的所述价值等级和所述临界价值等级,将低于所述临界价值等级的所述自然数据划分为所述无价值数据,并将其剔除;获取偶然数据,所述偶然数据包括异常值数据和离群数据,定位所述偶然数据中的所述异常值数据,将所述异常值数据剔除,定位所述偶然数据中的离群数据,将所述离群数据划分为多个群组,基于所述群组单独建立预测子模型;获取所述重复数据,将所述重复数据删除。3.根据权利要求2所述的一种数据重构方法,其特征在于,所述相似度特征包括匹配度,定义对比的所述目标数据分别为第一数据和第二数据,获取所述第一数据与所述第二数据的所述匹配度,设置第一阈值,若所述匹配度大于所述第一阈值,则在所述第一数据和所述第二数据内标注对应所述重复数据的数据标签。4.根据权利要求3所述的一种数据重构方法,其特征在于,获取所述第一数据和所述第二数据的所述匹配度包括以下步骤:步骤S21:抽取所述第一数据和所述第二数据的第一名称和第二名称,获取所述第一名称和所述第二名称的第一相似度;步骤S22:若所述第一数据和所述第二数据分别包括多个第一子数据和第二子数据,继续获取所述第一子数据的第一方差和所述第二子数据的第二方差,计算所述第一方差和所述第二方差的第一差值,若所述第一差值在小于第二阈值,则继续执行步骤S23;
步骤S23:获取所述第一子数据和所述第二子数据的第二相似度,基于第一公式计算所述匹配度,所述第一公式为:,其中,和分别为所述第一相似度和所述第二相似度,和分别对应的第一系数和第二系数。5.根据权利要求4所述的一种数据重构方法,其特征在于,获取所述第二相似度包括以下步骤:步骤S231:获取所述第一子数据和所述第二子数据的第一数量和第二数量,计算所述第一数量和所述第二数量的第二差值,若所述第二差值为0,则执行步骤S232,若所述第二差值小于第三阈值且不为0,则补充所述第一子数据或所述...

【专利技术属性】
技术研发人员:朱小黄
申请(专利权)人:深圳希研工业科技有限公司朱小黄孙伟
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1