基于语义预处理的工艺知识图谱构建方法技术

技术编号:39809929 阅读:6 留言:0更新日期:2023-12-22 02:45
本发明专利技术公开一种基于语义预处理的工艺知识图谱构建方法

【技术实现步骤摘要】
基于语义预处理的工艺知识图谱构建方法、系统及设备


[0001]本专利技术涉及工业制造
,特别是涉及一种基于语义预处理的工艺知识图谱构建方法

系统及设备


技术介绍

[0002]随着现代制造业向着自动化

信息化

智能化方向快速发展,制造业知识化的需求也日益增加,采用合适的数据预处理方法来构建高质量的制造领域知识图谱是制造业知识化的重要前提

[0003]传统数据预处理方法侧重关注数据本身的统计学噪声,如明显过大或过小的异常值

不符合实际规律的取值等,这些数据预处理方法都是面向有实际量化和计算意义的数据的,尤其在大数据场景中效果较好

但在制造领域中,设计生产多遵循既有规范而进行,尤其在工艺场景中,所以面向制造领域工艺场景的数据预处理方法应当与实际需求,即相应的规范有机结合

[0004]目前,面向制造领域工艺场景的数据预处理方法仍然和传统数据预处理相似,即剔除不符合数值型规范的异常工艺数值数据,如不符合标准的切削参数

不满足可达性原则的装配工序等,鲜有从语言描述规范视角出发对工艺文本数据进行预处理的方法研究,而在制造业知识化的进程中,工艺知识本身的语义表达准确性是知识图谱能否广泛应用的前提

因为语义型规范并不具备数值型规范的量化计算特性,所以需要合适高效的模型分析提炼工艺文本数据内隐藏的语义表达规范,从而借此处理相似领域或场景中产生的语义型数据噪声,获得语义规范化程度更高的工艺文本数据,为更易共享重用的制造领域工艺知识图谱构建奠定数据基础


技术实现思路

[0005]针对上述
技术介绍
中提出的问题,本专利技术提供一种基于语义预处理的工艺知识图谱构建方法

系统及设备,以提高工艺数据的语义表达准确性,进而提高所构建的制造领域工艺知识图谱的质量

[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一方面,本专利技术提供一种基于语义预处理的工艺知识图谱构建方法,包括:
[0008]将待处理的工艺数据按数据类型分为结构化数据和非结构化数据两类,并对两类数据分别进行初步清洗;
[0009]将初步清洗后的结构化数据和非结构化数据按照预设格式均匀融合到一个列表中,并按预设比例划分为训练集和预测集;
[0010]构建包括输入层

投影层

隐藏层和输出层的
NNLM
模型;
[0011]基于
N

Gram
原理定义模型参数,并采用训练集训练
NNLM
模型;
[0012]基于预测集生成不规范语言的待预测字段,将待预测字段输入训练好的
NNLM
模型,计算模型语义筛选的准确率;
[0013]将准确率高于准确率阈值的
NNLM
模型作为语义预处理模型;
[0014]采用语义预处理模型对工艺数据进行预处理,并基于预处理后的工艺数据构建制造领域工艺知识图谱

[0015]可选地,所述将待处理的工艺数据按数据类型分为结构化数据和非结构化数据两类,并对两类数据分别进行初步清洗,具体包括:
[0016]将待处理的工艺数据按数据类型分为结构化数据和非结构化数据两类,对结构化数据进行空值剔除和合并单元格消除处理,对非结构化数据采取
Jieba
分词工具进行中文分词和去除停用词处理,然后通过长文本处理操作将长句子分割为合适长度的字段,得到初步清洗后的结构化数据和非结构化数据

[0017]可选地,所述将初步清洗后的结构化数据和非结构化数据按照预设格式均匀融合到一个列表中,并按预设比例划分为训练集和预测集,具体包括:
[0018]将初步清洗后的结构化数据和非结构化数据统一为
JSON
格式,分别提取每个字段的内容和长度放到一个对象中,并赋予每个对象一个整数型
id
作为唯一标识;
[0019]将不同批次转化为标准对象格式的数据存放至各个列表中;
[0020]将结构化数据和非结构化数据不同批次的所有列表都合并为一个列表
L
,并使其中的各个对象按照
id
随机进行排列;
[0021]将列表
L
中的数据按
4:1
的比例划分成训练集和预测集

[0022]可选地,所述构建包括输入层

投影层

隐藏层和输出层的
NNLM
模型,具体包括:
[0023]用
One

hot
对列表
L
中所有内容部分的每个文字进行随机赋值,得到一个词向量表
V

[v1,v2,

,vi,

,vN],其长度与列表
L
中所有内容的每个文字的集合的非重复部分数目
N
相同;
[0024]构建输入层,所述输入层将输入数据
x
的内容按照文字顺序对应词向量表中相应文字的值生成随机编码
X

[0025]构建投影层,所述投影层使用
Matrix
将随机编码
X
映射到词向量
X
w

Matrix(X)

[0026]构建隐藏层,定义隐藏层规模为
h
,通过激活函数
tanh
计算
Z
w

tanh(p+W*X
w
)
;其中
W
为隐藏层权重,
p
表示隐藏层偏置,
Z
w
是隐藏层输入词向量
X
w
的特征抽象结果;
[0027]构建输出层,计算
Y
w

q+U*Z
w
,其中
U
为输出层权重,
q
表示输出层偏置,
Y
w
代表对应内容下一个文字是词向量表中每个文字的可能性;
[0028]对于长度为
length
的字段内容,按顺序将第2个位置到第
length
个位置的最大可能性对应的文字与原字段内容相应位置的文字进行比较,相同则令
i

i+1
,最终输出语义规范程度
[0029]可选地,所述基于预测集生成不规范语言的待预测字段,将待预测字段输入训练好的
NNLM
模型,计算模型语义筛选的准确率,具体包括:
[0030]在预测集中随机插入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语义预处理的工艺知识图谱构建方法,其特征在于,包括:将待处理的工艺数据按数据类型分为结构化数据和非结构化数据两类,并对两类数据分别进行初步清洗;将初步清洗后的结构化数据和非结构化数据按照预设格式均匀融合到一个列表中,并按预设比例划分为训练集和预测集;构建包括输入层

投影层

隐藏层和输出层的
NNLM
模型;基于
N

Gram
原理定义模型参数,并采用训练集训练
NNLM
模型;基于预测集生成不规范语言的待预测字段,将待预测字段输入训练好的
NNLM
模型,计算模型语义筛选的准确率;将准确率高于准确率阈值的
NNLM
模型作为语义预处理模型;采用语义预处理模型对工艺数据进行预处理,并基于预处理后的工艺数据构建制造领域工艺知识图谱
。2.
根据权利要求1所述的基于语义预处理的工艺知识图谱构建方法,其特征在于,所述将待处理的工艺数据按数据类型分为结构化数据和非结构化数据两类,并对两类数据分别进行初步清洗,具体包括:将待处理的工艺数据按数据类型分为结构化数据和非结构化数据两类,对结构化数据进行空值剔除和合并单元格消除处理,对非结构化数据采取
Jieba
分词工具进行中文分词和去除停用词处理,然后通过长文本处理操作将长句子分割为合适长度的字段,得到初步清洗后的结构化数据和非结构化数据
。3.
根据权利要求2所述的基于语义预处理的工艺知识图谱构建方法,其特征在于,所述将初步清洗后的结构化数据和非结构化数据按照预设格式均匀融合到一个列表中,并按预设比例划分为训练集和预测集,具体包括:将初步清洗后的结构化数据和非结构化数据统一为
JSON
格式,分别提取每个字段的内容和长度放到一个对象中,并赋予每个对象一个整数型
id
作为唯一标识;将不同批次转化为标准对象格式的数据存放至各个列表中;将结构化数据和非结构化数据不同批次的所有列表都合并为一个列表
L
,并使其中的各个对象按照
id
随机进行排列;将列表
L
中的数据按
4∶1
的比例划分成训练集和预测集
。4.
根据权利要求3所述的基于语义预处理的工艺知识图谱构建方法,其特征在于,所述构建包括输入层

投影层

隐藏层和输出层的
NNLM
模型,具体包括:用
One

hot
对列表
L
中所有内容部分的每个文字进行随机赋值,得到一个词向量表
V

[v1

v2

...

vi

...

vN]
,其长度与列表
L
中所有内容的每个文字的集合的非重复部分数目
N
相同;构建输入层,所述输入层将输入数据
x
的内容按照文字顺序对应词向量表中相应文字的值生成随机编码
X
;构建投影层,所述投影层使用
Matrix
将随机编码
X

【专利技术属性】
技术研发人员:王儒华益威李科润王靖凯廖一安王国新阎艳
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1