面向知识图谱的离散型制造行业工艺数据提取方法及系统技术方案

技术编号:39822642 阅读:9 留言:0更新日期:2023-12-22 19:42
本发明专利技术一种面向知识图谱的离散型制造行业工艺数据提取方法及系统,涉及工艺实体识别技术领域

【技术实现步骤摘要】
面向知识图谱的离散型制造行业工艺数据提取方法及系统


[0001]本专利技术涉及工艺实体识别
,尤其涉及一种面向知识图谱的离散型制造行业工艺数据提取方法及系统


技术介绍

[0002]知识抽取是构建大规模知识图谱的重要环节,知识的抽取过程为知识图谱提供了最基础的数据

因为离散制造企业工艺数据的复杂性,目前在该类型企业中,普遍存在工艺数据多源异构的问题

工艺多源异构数据通常以不同的表达形式,以结构化或非结构化的方式存储在不同工艺数据系统中

有效的提取工艺数据有利于保证产品质量

提高生产效率以及促使产品升级改进等,在得到有效利用的前提下能够为工艺设计过程提供依据,同时对制造过程的持续改进提供支持,进而提高制造企业的竞争力

[0003]目前知识图谱已经具有结构化组织工艺数据的能力,并且通过图谱内已有的工艺数据能够实现工艺的推理,但在工艺数据提取方面仍然存在部分不足

[0004]另外,现有技术在工艺数据的表达及应用方面存在诸多问题:离散型制造企业的工艺数据通常来自多个不同的数据源,可能涵盖了结构化数据和非结构化数据;从不同数据源提取的数据可能存在质量不一致

不准确或缺失的情况,从而影响知识图谱的准确性和可靠性;工艺数据中可能包含丰富的领域专业知识和术语,需要进行深入的语义理解才能准确地构建知识图谱;将多源数据映射到统一的知识表示模型,并进行有效的知识融合效果并不理想;构建知识图谱不仅仅是技术问题,还需要考虑实际应用场景等

[0005]综上所述,目前存在离散型制造企业中多源异构工艺数据如何提取到知识图谱的问题

因此如何实现工艺数据的结构化表达,同时基于结构化表达工艺数据实现结构化

非结构化工艺数据的准确提取是目前急需解决的问题


技术实现思路

[0006]针对现有技术存在的不足,本专利技术的目的是提供一种面向知识图谱的离散型制造行业工艺数据提取方法及系统,在对工艺数据进行结构化表达的基础上,实现以关系型数据库为代表的结构化工艺数据以及以工艺卡片为代表的非结构化工艺数据准确提取到知识图谱

[0007]为了实现上述目的,本专利技术是通过如下的技术方案来实现:本专利技术第一方面提供了一种面向知识图谱的离散型制造行业工艺数据提取方法,包括以下步骤:根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;利用知识图谱模式层对结构化工艺数据进行提取;将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工
艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;利用命名实体识别模型对工艺描述性语句进行提取

[0008]进一步的,所述工艺信息包括产品信息

工艺过程信息

工艺资源信息和工厂信息

[0009]进一步的,所述工艺本体模型由实体类型

属性

属性类型和关系构成

[0010]进一步的,利用知识图谱模式层对结构化工艺数据进行提取的具体步骤为:根据知识图谱模式层分析结构化工艺数据结构,捕获结构化工艺数据的含义和关系;根据结构化工艺数据的含义和关系进行数据抽取;对抽取的数据进行数据映射和数据同步更新

[0011]更进一步的,从分析关系型数据库中进行数据抽取包括实体抽取

关系抽取和属性抽取

[0012]进一步的,将非结构化工艺数据进行预处理的具体步骤为:确定待提取的非结构化工艺数据,判定非结构化工艺数据的文件类型及处理方式,并将非结构化工艺数据转化为系统兼容的格式

[0013]进一步的,固定部分信息指填写表格时内容位置及数量不会发生变化的信息;浮动部分信息指填写表格时随着内容增多行数增加的信息

[0014]进一步的,在工艺表格中对固定部分信息和浮动部分信息进行定义的具体步骤为:定义非结构化工艺数据与工艺本体模型之间的对应关系;根据对应关系定义工艺表格中的固定部分信息及浮动部分信息,其中,通过定义单元格在工艺表格中的绝对位置或定义多个单元格之间相对位置实现固定部分信息的定义,通过定义浮动部分信息相邻的固定部分信息作为头部特征和尾部特征,实现浮动部分信息的定义

[0015]进一步的,利用命名实体识别模型对工艺描述性语句进行提取的具体步骤为:利用标注好的数据集,计算初始命名实体识别模型预测的标签序列与真实标签序列之间的损失函数;通过随机梯度下降,对初始命名实体识别模型的参数进行更新,使得损失函数逐渐减小,得到训练好的命名实体识别模型;利用训练好的命名实体识别模型对待处理的工艺描述性语句进行提取,经过命名实体识别模型的前向传播过程,得到工艺描述性语句中每个单词的预测标签序列

[0016]本专利技术第二方面提供了一种面向知识图谱的离散型制造行业工艺数据提取系统,包括:工艺本体构建模块,被配置为根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;结构化工艺数据提取模块,被配置为利用知识图谱模式层对结构化工艺数据进行提取;非结构化工艺数据处理模块,被配置为将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括
非工艺描述性语句和工艺描述性语句;第一非结构化工艺数据提取模块,被配置为构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;第二非结构化工艺数据提取模块,被配置为利用命名实体识别模型对工艺描述性语句进行提取

[0017]以上一个或多个技术方案存在以下有益效果:本专利技术公开了一种面向知识图谱的离散型制造行业工艺数据提取方法及系统,针对目前存在离散型制造企业中多源异构工艺数据如何提取到知识图谱的问题,本专利技术对结构化工艺数据和非结构化工艺数据分别采用不同方式实现针对性的数据提取,克服了由于数据源不同,数据提取质量参差不齐的缺陷

本专利技术还基于命名实体识别模型对非结构化工艺数据中的描述性语句进行了工艺实体识别,通过深入的语义构建更为准确的知识图谱

本专利技术实现了多源数据中知识的有效融合,提高了知识图谱构建的准确性和可靠性

[0018]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到

附图说明
[0019]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,包括以下步骤:根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;利用知识图谱模式层对结构化工艺数据进行提取;将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;利用命名实体识别模型对工艺描述性语句进行提取
。2.
如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,所述工艺信息包括产品信息

工艺过程信息

工艺资源信息和工厂信息
。3.
如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,所述工艺本体模型由实体类型

属性

属性类型和关系构成
。4.
如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,利用知识图谱模式层对结构化工艺数据进行提取的具体步骤为:根据知识图谱模式层分析结构化工艺数据结构,捕获结构化工艺数据的含义和关系;根据结构化工艺数据的含义和关系进行数据抽取;对抽取的数据进行数据映射和数据同步更新
。5.
如权利要求4所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,从分析关系型数据库中进行数据抽取包括实体抽取

关系抽取和属性抽取
。6.
如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,将非结构化工艺数据进行预处理的具体步骤为:确定待提取的非结构化工艺数据,判定非结构化工艺数据的文件类型及处理方式,并将非结构化工艺数据转化为系统兼容的格式
。7.
如权利要求1所述的面向知识图谱的离散型制造行业工...

【专利技术属性】
技术研发人员:靳化振魏松马春娜邱慧慧李建勋屈亚宁刘斌李龙传邵梦张金龙
申请(专利权)人:山东山大华天软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1