【技术实现步骤摘要】
一种数据重构方法、系统及存储介质
[0001]本专利技术属于数据处理
,具体涉及一种数据重构方法、系统及存储介质。
技术介绍
[0002]随着人工智能及大数据技术的发展,出现了许多基于人工智能的数据分析模型,通过数据分析模型可以对收集到的历史数据进行处理,从而对未来进行一定程度的预测和规划,现有技术中,一般是基于机器学习等技术建立数据模型;针对当前流行的大模型,需要收集海量的数据对其进行训练,并根据训练结果调整模型参数,然而海量的数据必然包含各种各样的信息,那么数据中必然包含许多偶然性或毫无意义的重复性数据,例如在工厂产品质量管理中,通过收集产品的历史生产记录数据,通过对其进行数据分析,以获取对未来产品质量及产品生产时间的预测,从而帮助企业制定产品生产计划,但是,由于产品型号、质量要求等会随着时间更新迭代,会使得部分历史数据不再适用,亦或是同一个产品的两个数据之间存在线性关系,就会数据之间存在冗余,因此,即便将上述数据输入至模型中,也不会提升模型的训练效果;另外,大多数情况下我们无法在源头对数据的采集过程进行监督,当数据采集过程出现错误,也会使得大数据中出现异常值,最具代表性的例子是工厂通过传感器采集产品质量数据,但是采集过程是不可控的,其中可能会存在由于传感器异常而采集到偏离常规值较大的数据,若不经筛选直接将数据输入至模型中,也会影响模型的训练效果;基于上述原因,使得当前收集到的数据并不总是正确的,存在许多不确定性,若将此种数据直接输入至机器学习模型中,一方面会导致算力的浪费,另一方面,也会对模型的预测准确度 ...
【技术保护点】
【技术特征摘要】
1.一种数据重构方法,其特征在于,包括:步骤S1:基于预测目标建立数据预测模型,确定所述数据预测模型的输入特征和输出特征,基于所述输入特征和所述输出特征确定需要收集的目标数据,以及存储所述目标数据的数据库;步骤S2:从所述数据库内抓取所述目标数据,设置数据特征,基于所述数据特征对所述目标数据进行分类,将所述目标数据划分为多种数据类型,所述数据特征包括时间特征、属性特征、数值特征和相似度特征,基于所述时间特征将所述目标数据划分为历史数据和边际数据,基于所述属性特征将所述目标数据划分为自然数据和行为数据,基于所述数值特征将所述目标数据划分为必然数据和偶然数据,基于所述相似度特征将所述目标数据划分为重复数据和非重复数据,在所述目标数据内标注数据标签,数据标签与所述目标数据的所述数据类型对应;步骤S3:基于所述数据类型,将分类后的所述目标数据进行重构,获得重构数据;步骤S4:针对每种所述重构数据设置权重范围,分别从所述权重范围内抽取初始权重,将所述初始权重赋予对应的所述重构数据;步骤S5:设置评价规则,将所述重构数据输入至所述数据预测模型中,判断所述数据预测模型的输出结果是否满足所述评价规则,若所述输出结果不满足所述评价规则,则基于所述输出结果调整所述初始权重,直至获得其满足所述评价规则。2.根据权利要求1所述的一种数据重构方法,其特征在于,所述步骤S3中,对所述目标数据进行重构包括以下步骤:获取历史数据,基于时间特征对所述历史数据进行分箱;获取自然数据,所述自然数据包括无价值数据和冗余数据,建立价值词典,所述价值词典包括数据名称和对应的价值等级,设定临界价值等级,基于所述目标数据对应的所述价值等级和所述临界价值等级,将低于所述临界价值等级的所述自然数据划分为所述无价值数据,并将其剔除;获取偶然数据,所述偶然数据包括异常值数据和离群数据,定位所述偶然数据中的所述异常值数据,将所述异常值数据剔除,定位所述偶然数据中的离群数据,将所述离群数据划分为多个群组,基于所述群组单独建立预测子模型;获取所述重复数据,将所述重复数据删除。3.根据权利要求2所述的一种数据重构方法,其特征在于,所述相似度特征包括匹配度,定义对比的所述目标数据分别为第一数据和第二数据,获取所述第一数据与所述第二数据的所述匹配度,设置第一阈值,若所述匹配度大于所述第一阈值,则在所述第一数据和所述第二数据内标注对应所述重复数据的数据标签。4.根据权利要求3所述的一种数据重构方法,其特征在于,获取所述第一数据和所述第二数据的所述匹配度包括以下步骤:步骤S21:抽取所述第一数据和所述第二数据的第一名称和第二名称,获取所述第一名称和所述第二名称的第一相似度;步骤S22:若所述第一数据和所述第二数据分别包括多个第一子数据和第二子数据,继续获取所述第一子数据的第一方差和所述第二子数据的第二方差,计算所述第一方差和所述第二方差的第一差值,若所述第一差值在小于第二阈值,则继续执行步骤S23;
步骤S23:获取所述第一子数据和所述第二子数据的第二相似度,基于第一公式计算所述匹配度,所述第一公式为:,其中,和分别为所述第一相似度和所述第二相似度,和分别对应的第一系数和第二系数。5.根据权利要求4所述的一种数据重构方法,其特征在于,获取所述第二相似度包括以下步骤:步骤S231:获取所述第一子数据和所述第二子数据的第一数量和第二数量,计算所述第一数量和所述第二数量的第二差值,若所述第二差值为0,则执行步骤S232,若所述第二差值小于第三阈值且不为0,则补充所述第一子数据或所述...
【专利技术属性】
技术研发人员:朱小黄,
申请(专利权)人:深圳希研工业科技有限公司朱小黄孙伟,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。