System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种物料数据清洗的方法、装置、电子设备及介质。
技术介绍
1、对于工业生产、制造类企业而言,物料数据涉及到方方面面和各个业务环节,诸如物料数据会在生产部门、采购部门和财务部门等部门以及不同企业之间进行流转和协同。
2、在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:不同企业之间使用的物料管理系统(例如为企业信息管理系统(erp系统)中的物料管理模块(bom模块))可能具有差异,不同物料管理系统中对于物料术语的表述可能存在差异,或者针对同一个物料管理系统,不同人员使用不同的表述进行描述,例如有的采用o型密封圈描述,有的采用密封圈描述,有的采用密封部件描述等;这样一来,面对海量且多样化的物料数据进行数据清洗时,通过规则匹配结合人工清洗的方式进行筛选和标准化处理,存在耗费人力成本和时间成本、清洗效率低、清洗结果可解释性差、难以应对企业多样的物料处理场景、可拓展性差和维护成本高等问题。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种物料数据清洗的方法、装置、电子设备及介质。
2、第一方面,本公开的实施例提供一种物料数据清洗的方法。上述方法包括:获取待处理的物料数据;基于预训练好的清洗模型,对上述物料数据进行清洗处理,得到清洗后的标准物料数据;对上述标准物料数据进行模板识别,得到上述标准物料数据对应的目标模板物料标识;对上述标准物料数据进行特征属性分割和识别,得到上述标
3、第二方面,本公开的实施例提供一种物料数据清洗的方法。上述方法包括:获取待处理的物料数据;基于预训练好的清洗模型,对上述物料数据进行清洗处理,得到清洗后的标准物料数据;对上述标准物料数据进行模板识别,得到上述标准物料数据对应的目标模板物料标识;将上述目标模板物料标识对应的元数据信息作为约束条件,对上述标准物料数据进行特征属性分割和识别,得到上述标准物料数据对应的目标特征属性;根据上述标准物料数据与对应的目标特征属性,生成物料数据清洗后的解释性结果。
4、在本公开的一些实施例中,根据上述目标特征属性和上述目标模板物料标识对应的元数据信息进行匹配,生成物料数据清洗后的解释性结果,包括:确定上述目标模板物料标识对应的元数据信息,上述元数据信息用于描述目标模板物料标识对应的各个特征属性;在上述元数据信息中进行上述目标特征属性的匹配;将匹配成功的第一目标特征属性与第一元数据信息的对应关系存储;将上述第一目标特征属性和对应的第一标准物料数据输出,作为物料数据清洗后的第一解释性结果,上述第一解释性结果用于表示符合模板的物料清洗结果。
5、在本公开的一些实施例中,根据上述目标特征属性和上述目标模板物料标识对应的元数据信息进行匹配,生成物料数据清洗后的解释性结果,还包括:将匹配失败或无法匹配的第二目标特征属性和对应的第二标准物料数据输出,作为物料数据清洗后的第二解释性结果,上述第二解释性结果用于表示不符合模板的物料清洗结果,并发出根据上述第二解释性结果进行模板更新的提示信息。
6、在本公开的一些实施例中,上述清洗模型包括:第一预处理模块、第一bart模型、第一全连接层、第一软最大化层和格式转换模块。上述第一预处理模块用于将上述物料数据进行预处理,包括:将上述物料数据中的空格替换为设定特殊字符。上述第一bart模型用于对预处理后的物料数据进行字编码、位置编码和基于transformer的高维运算处理,得到第一隐层特征向量。上述第一全连接层与上述第一bart模型连接,用于对上述第一隐层特征向量进行处理,得到第一输出向量。上述第一软最大化层与上述第一全连接层连接,用于根据上述第一输出向量进行softmax运算,得到连续的字级预测数据。上述格式转换模块用于对上述连续的字级预测数据中的设定特殊字符转换为空格,得到输入的物料数据对应清洗后的标准物料数据。
7、在本公开的一些实施例中,在训练阶段,上述清洗模型的训练数据通过以下方式生成:从多个信息管理系统中获取物料源数据和清洗物料数据;上述多个信息管理系统存在物料描述术语的差异;上述清洗物料数据是通过人工清洗或规则匹配至少一种方式得到的标准物料数据;将上述物料源数据和对应的清洗物料数据构建为第一数据对;根据上述物料源数据的偏差类型和人工拓展信息,对上述第一数据对进行衍生处理,得到由上述第一数据对衍生的第二数据对;上述偏差类型用于描述物料源数据与清洗物料物料数据之间的偏差来源;上述人工拓展信息从描述顺序颠倒、维度缺失、同义词拓展、同音字拓展、带有错别字至少一种角度进行物料源数据的衍生;将上述第一数据对和上述第二数据对中的缺失值、无法识别的数据均进行剔除,生成上述清洗模型的训练数据。
8、在本公开的一些实施例中,对上述标准物料数据进行模板识别,得到上述标准物料数据对应的目标模板物料标识,包括:基于训练好的模板识别模型,对上述标准物料数据进行模板识别,得到上述标准物料数据对应的目标模板物料标识。其中,上述模板识别模型包括:第二bart模型、第二全连接层和第二软最大化层。上述第二bart模型用于对上述标准物料数据进行字编码、位置编码和基于transformer的高维运算处理,得到第二隐层特征向量。上述第二全连接层与上述第二bart模型连接,用于对上述第二隐层特征向量进行处理,得到第二输出向量。上述第二软最大化层与上述第二全连接层连接,用于根据上述第二输出向量进行softmax运算,得到输入的标准物料数据对应的目标模板物料标识。
9、在本公开的一些实施例中,上述模板识别模型的训练数据通过以下方式得到:从多个信息管理系统中获取清洗物料数据和对应的模板数据;上述多个信息管理系统存在物料描述术语的差异;对清洗物料数据和对应的模板数据的缺失值、无法识别数据均进行剔除,得到预处理结果;对上述预处理结果中的模板数据进行标量化处理,得到模板物料标识;上述模板物料标识用于规范化描述对应的清洗物料数据的物料名称或类别;将上述预处理结果中的清洗物料数据和对应的模板物料标识构建为第三数据对,上述第三数据对作为上述模板识别模型的训练数据。
10、在本公开的一些实施例中,将上述目标模板物料标识对应的元数据信息作为约束条件,对上述标准物料数据进行特征属性分割和识别,得到上述标准物料数据对应的目标特征属性,包括:将上述标准物料数据进行第一预处理,包括:将上述标准物料数据中名称属性数据与其他属性数据进行拼接,其中上述名称属性数据放置在数据头部且用预设间隔符与其他属性数据隔开;基于预训练好的第一特征属性分割模型,对第一预处理后的标准物料数据进行特征属性分割和识别,得到符合上述元数据信息对应约束条件的目标特征属性。其中,上述第一特征属性分割模型包括:第三bart模型、第三全连接层、第三软最大化层和过滤模块。上述第三bart模型用于对第一预本文档来自技高网...
【技术保护点】
1.一种物料数据清洗的方法,其特征在于,包括:
2.一种物料数据清洗的方法,其特征在于,包括:
3.根据权利要求1所述的方法,其特征在于,根据所述目标特征属性和所述目标模板物料标识对应的元数据信息进行匹配,生成物料数据清洗后的解释性结果,包括:
4.根据权利要求3所述的方法,其特征在于,根据所述目标特征属性和所述目标模板物料标识对应的元数据信息进行匹配,生成物料数据清洗后的解释性结果,还包括:
5.根据权利要求1或2所述的方法,其特征在于,所述清洗模型包括:
6.根据权利要求5所述的方法,其特征在于,在训练阶段,所述清洗模型的训练数据通过以下方式生成:
7.根据权利要求1或2所述的方法,其特征在于,对所述标准物料数据进行模板识别,得到所述标准物料数据对应的目标模板物料标识,包括:
8.根据权利要求7所述的方法,其特征在于,所述模板识别模型的训练数据通过以下方式得到:
9.根据权利要求2所述的方法,其特征在于,将所述目标模板物料标识对应的元数据信息作为约束条件,对所述标准物料数据进行特征
10.根据权利要求2所述的方法,其特征在于,将所述目标模板物料标识对应的元数据信息作为约束条件,对所述标准物料数据进行特征属性分割和识别,得到所述标准物料数据对应的目标特征属性,包括:
11.一种构建物料数据清洗模型的方法,其特征在于,包括:
12.根据权利要求11所述的方法,其特征在于,
13.一种物料数据清洗的方法,其特征在于,包括:
14.一种物料数据清洗的装置,其特征在于,包括:
15.一种物料数据清洗的装置,其特征在于,包括:
16.一种构建物料数据清洗模型的装置,其特征在于,包括:
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-13中任一项所述的方法。
...【技术特征摘要】
1.一种物料数据清洗的方法,其特征在于,包括:
2.一种物料数据清洗的方法,其特征在于,包括:
3.根据权利要求1所述的方法,其特征在于,根据所述目标特征属性和所述目标模板物料标识对应的元数据信息进行匹配,生成物料数据清洗后的解释性结果,包括:
4.根据权利要求3所述的方法,其特征在于,根据所述目标特征属性和所述目标模板物料标识对应的元数据信息进行匹配,生成物料数据清洗后的解释性结果,还包括:
5.根据权利要求1或2所述的方法,其特征在于,所述清洗模型包括:
6.根据权利要求5所述的方法,其特征在于,在训练阶段,所述清洗模型的训练数据通过以下方式生成:
7.根据权利要求1或2所述的方法,其特征在于,对所述标准物料数据进行模板识别,得到所述标准物料数据对应的目标模板物料标识,包括:
8.根据权利要求7所述的方法,其特征在于,所述模板识别模型的训练数据通过以下方式得到:
9.根据权利要求2所述的方法,其特征在于,将所述目标模板物料标识对应的元数据信息作为约束条件...
【专利技术属性】
技术研发人员:杨浩东,袁磊,
申请(专利权)人:陕西优百信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。