一种基于深度学习的产品数据清洗方法及系统技术方案

技术编号:33726676 阅读:56 留言:0更新日期:2022-06-08 21:20
本发明专利技术提供了一种基于深度学习的产品数据清洗方法及系统,方法包括以下步骤:按行业建立产品数据集,基于深度学习模型建立数据清洗模型,并利用数据清洗模型对产品数据集进行训练,得到训练数据集和测试数据集;获取需要清洗的产品数据并将其输入到训练好的数据清洗模型,得到产品清洗结果;按照物料属性对产品清洗结果进行循环交叉验证,直至不存在异常数据后输出清洗结果。本发明专利技术预先建立一基于机械加工和装配制造产品数据结构的深度学习数据集,所述数据集包含行业标准产品数据以及历史项目制造产品数据;然后通过数据集的数据清洗模型对所述项目的产品数据进行清洗。洗模型对所述项目的产品数据进行清洗。洗模型对所述项目的产品数据进行清洗。

【技术实现步骤摘要】
一种基于深度学习的产品数据清洗方法及系统


[0001]本专利技术涉及数据清洗
,尤其是一种基于深度学习的产品数据清洗方法及系统。

技术介绍

[0002]数据清洗:对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据导入后的数据清理一般是由计算机而不是人工完成。
[0003]物料(item):这里的物料是指产品生产过程中所要用到或消耗掉的所有物料,它包括最终产品、部件、组件、复合件、零件、外购件、原材料等。
[0004]物料主文件(item data):用来标识与描述用于生产过程中的每项物料的属性和信息,物料主文件主要包含:
[0005]1)基本信息:物料编码、物料类型、物料分类、物料名称。
[0006]2)设计管理有关信息:如设计图号或配方(原料、成分)号、设计修改号或版次、物料的生效日期和失效日期等。
[0007]3)物料管理有关信息:如计量单位、材质、规格、成品率、ABC码、默认的仓库和或为、分类吗、现有库存量、安全库存、最长存储天数、最大库存量限额、循环盘点间隔期等。
[0008]物料清单(Bill of Material,简称BOM):BOM是对产品组成结构的描述,它列明了生产一个产品所需要所有子部件、中间件、零件、原材料的列表,它显示了组成这个父零件所需子件的数量。有时也称为“配方表”、“配套表”、“产品结构表”、“详表”“产品明细清单”等。
[0009]产品数据:
[0010]制造业ERP系统中生产排程计划的基础是产品基础数据,包括产品和物料的描述数据、产品结构数据(BOM)、生产工艺数据,产品数据的来源主要是设计和产品研发部门提供的图纸、产品明细表、BOM、物料信息、工艺路线等,产品数据导入ERP系统的主要方式有:
[0011]1)来自于设计部门纸质的产品明细表或电子图档,然后手工录入;
[0012]2)通过ERP系统的数据接口直接导入设计部门提供的excel或cvc产品明细表;
[0013]3)通过ERP系统的数据接口直接导入来自于设计部门应用的PDM系统(产品数据管理系统)和PLM(产品生命周期管理系统)的数据。
[0014]进行产品数据清洗的原因是手工录入工作量巨大,而且差错较多,并且对数据的校验必须有非常专业的技术人员才能完成;导入来自于设计部门的产品明细表、PDM和PLM中的数据无法直接用作生产制造管理的基础数据,主要存在以下问题:设计部门提供的产品数据描述不规范;设计部门的产品数据的描述和ERP系统的数据描述规则不统一;
[0015]现有技术的缺点或存在的问题:
[0016]1)物料清单数据维护时,只能进行基本数学逻辑校验,例如:产品A的下级是零件B,那么零件B下级就不能是A,造成清洗不全面,偏差大。
[0017]2)物料主文件维护时,只能对各个单一属性规范化校验,例如:钢材的材质是否符
合国标,造成清洗不全面,偏差大。
[0018]3)规则库需人工设置与更新,实时性差、工作量大。

技术实现思路

[0019]本专利技术为了解决以上技术问题,本专利技术提供了一种基于深度学习的产品数据清洗方法及系统,预先建立一基于机械加工和装配制造产品数据结构的深度学习数据集,所述数据集包含行业标准产品数据以及历史项目制造产品数据;然后通过数据集的数据清洗模型对所述项目的产品数据进行清洗。
[0020]为实现上述目的,提出以下技术方案:
[0021]一种基于深度学习的产品数据清洗方法,包括以下步骤:
[0022]S1,按行业建立产品数据集,基于深度学习模型建立数据清洗模型,并利用数据清洗模型对产品数据集进行训练,得到训练数据集和测试数据集;
[0023]S2,获取需要清洗的产品数据并将其输入到训练好的数据清洗模型,得到产品清洗结果;
[0024]S3,按照物料属性对产品清洗结果进行循环交叉验证,直至不存在异常数据后输出清洗结果。
[0025]深度学习是一种借助多层神经网络,运用多层次的分析和计算手段,从既有数据中归纳模型然后再通过这个模型去分析新数据的算法过程。因此本提案应用此算法应用在产品数据清洗过程中。具体如下优势:运用RNN循环神经网络深度学习算法,对产品数据预处理;通过行业标准数据库和历史业务数据库,利用深度学习算法的清洗模型,抽象各维度神经元。再依靠其自我学习的特性,对于训练库数据进行周期性学习提升;运用深度学习测试库与训练库结果校验机制,对清洗结果偏差进行修正,提高清洗准确率。本专利技术的物料清单与物料主文件信息是多维度清洗的同时进行交叉验证。
[0026]作为优选,所述S1包括以下步骤:
[0027]A1:按行业建立产品数据集,所述产品数据集包括行业标准产品数据以及历史项目制造产品数据;
[0028]A2:按物料的属性制定标签;
[0029]A3:把产品数据集按分类与标签建立分类学习器;
[0030]A4:通过深度学习模型对产品数据集进行训练,得到训练结果;
[0031]建立函数M
i
=AF(∑
j
X
ij
t
k
+b
j
),其中t是产品库数量,k是产品BOM的层级,X是标签数据集,AF是激活函数;
[0032]A5:训练结果经专家数据库校对后输出为训练通过的数据集;
[0033]A6:将训练通过的数据集拆分为训练数据和测试数据。
[0034]作为优选,所述物料的属性包括物料的材质、规格、类型、大类。
[0035]作为优选,所述S3包括以下步骤:运用K

fold Cross Validation交叉验证方法,同时调用训练数据集与测试数据,具体如下:
[0036]1)将训练数据与测试数据分成x份;
[0037]2)不断地循环且不重复地一次调用1份做测试数据,用其他x

1份做训练数据模型,然后计算此深度学习模型在测试数据集上每个物料属性标签的MSE
i
值;
[0038]3)再将这x次计算出的MSE
i
进行平均后,得到各物料属性标签MSE值,其中x就是配置的拆分的数量值;
[0039][0040]4)判断3)中是否存在异常数据,若否,则直接输出清洗结果,若是进行5);
[0041]5)则调用专家数据库校对后,将异常数据纳入临时训练库;
[0042]6)调用临时训练库,再次进行清洗;
[0043]7)判断6)中是否存在异常数据,若否,则把临时训练库转入正式训练库,并直接输出清洗结果;若是,返回5)。
[0044]作为优选,所述激活函数AF为Sigmoid激活函数或Tanh激活函数或ELU激活函数。
[0045]一种基于深度学习的产品数据清洗系统,采用上述的一种基于深度学习的产品数据清洗方法,包括:...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的产品数据清洗方法,其特征是,包括以下步骤:S1,按行业建立产品数据集,基于深度学习模型建立数据清洗模型,并利用数据清洗模型对产品数据集进行训练,得到训练数据集和测试数据集;S2,获取需要清洗的产品数据并将其输入到训练好的数据清洗模型,得到产品清洗结果;S3,按照物料属性对产品清洗结果进行循环交叉验证,直至不存在异常数据后输出清洗结果。2.根据权利要求1所述的一种基于深度学习的产品数据清洗方法,其特征是,所述S1包括以下步骤:A1:按行业建立产品数据集,所述产品数据集包括行业标准产品数据以及历史项目制造产品数据;A2:按物料的属性制定标签;A3:把产品数据集按分类与标签建立分类学习器;A4:通过深度学习模型对产品数据集进行训练,得到训练结果;建立函数M
i
=AF(∑
j
X
ij
t
k
+b
j
),其中t是产品库数量,k是产品BOM的层级,X是标签数据集,AF是激活函数;A5:训练结果经专家数据库校对后输出为训练通过的数据集;A6:将训练通过的数据集拆分为训练数据和测试数据。3.根据权利要求2所述的一种基于深度学习的产品数据清洗方法,其特征是,所述物料的属性包括物料的材质、规格、类型、大类。4.根据权利要求1所述的一种基于深度学习的产品数据清洗方法,其特征是,所述S3包括以下步骤:运用K

fold Cross Validation交叉...

【专利技术属性】
技术研发人员:吕勋郑沁周建波李伯鸣王燕灵
申请(专利权)人:杭州新中大科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1