一种自动构建高端装备制造业故障知识图谱的方法技术

技术编号:39835652 阅读:4 留言:0更新日期:2023-12-29 16:19
本发明专利技术公开了一种自动构建高端装备制造业故障知识图谱的方法,其特点是采用主体和客体对比学习的方法,在关系抽取中的主体和客体对比学习考虑主体的上下文特征与客体的上下文特征之间的相互作用,使得相关主体和客体之间的上下文特征更加相似,同时使无关实体和客体之间的上下文特征差异更大,以提升模型的性能

【技术实现步骤摘要】
一种自动构建高端装备制造业故障知识图谱的方法


[0001]本专利技术涉及智能学习
,具体地说是一种自动构建高端装备制造业故障知识图谱的方法


技术介绍

[0002]在高端装备领域,故障案例文本的撰写与应用具有重要的实际意义,这些文本通常由业务专家或专业维修人员编写,用以记录设备异常情况及故障排查过程,包括故障现象

故障原因

解决方法以及排故过程等内容

然而,这些故障案例知识的应用与推广受到其数据结构化程度的制约

[0003]为了提高故障案例知识的利用率,识别数据中的部件单元

性能表征

故障状态

故障检测工具等核心实体及其组成关系显得尤为重要

部件单元作为设备的基本组成单元,其性能表征可以反映设备的工作状态,故障状态则表示设备在运行过程中出现的异常情况,而故障检测工具则是用于诊断故障的设备或方法

通过识别这些核心实体及其组成关系,有助于我们更好地理解故障案例,提高故障排查的效率和准确性

如果对故障案例文本进行关系抽取任务,很容易发现故障的主体与客体之间存在多对多的关系,也就是说一个主体可能对应多个客体,而其中某一个客体可能对应多个主体

[0004]现有技术的故障案例知识是根据上下文进行关系的主体客体的抽取和关系类型的判断,即根据上下文对文本中每个字符进行判断,从而让模型学习到故障案例的知识,这种方法仅仅是对每个字符进行判断,缺少关于实体以及关系的直接信息

因此对于关系实体的边界,关系的类型都很难判断准确,故障排查的效率和准确性都比较低,这些故障案例知识的应用与推广受到其数据结构化程度的制约


技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种自动构建高端装备制造业故障知识图谱的方法,采用主体和客体对比学习的方法,在关系抽取中的主体和客体对比学习考虑主体的上下文特征与客体的上下文特征之间的相互作用,使得相关主体和客体之间的上下文特征更加相似,同时使无关实体和客体之间的上下文特征差异更大,以提升模型的性能

方法简便,大大提高了模型的效果,特别是在关系类型较多的场景下,可以提高对主,客体抽取和关系类型判断的准确率,进一步提高故障排查的效率和准确性,具有良好的应用前景

[0006]实现本专利技术目的的具体技术方案是:一种自动构建高端装备制造业故障知识图谱的方法,其特点是采用主体和客体对比学习的方法,在关系抽取中的主体和客体对比学习考虑主体的上下文特征与客体的上下文特征之间的相互作用,使得相关主体和客体之间的上下文特征更加相似,同时使无关实体和客体之间的上下文特征差异更大,以提升模型的性能,该方法具体包括:获得待抽取的故障案例样本,将样本输入到故障案例知识关系抽取模型,将得到预测关系的类型和关系的主体与客体,对故障案例样本进行训练,自动构建高
端装备制造业故障知识图谱

对故障案例样本进行训练的过程包括:
[0007]步骤1:对收集到的故障案例样本进行处理,按照关系主体客体的边界位置和关系的类型对数据进行标注

[0008]步骤2:将样本映射为词表中对应的索引,并送入在大量语料上预训练过的自注意力模型,得到文本表征

[0009]步骤3:文本表征加入位置信息强调字符之间的位置关系,对其进行解码得到所需的起始指针和终止指针,在此添加辅助任务

[0010]步骤5:将得到的三种起始指针和终止指针多次迭代训练故障案例知识关系抽取模型,得到最优模型并保存模型参数,实现自动构建高端装备制造业故障知识图谱

[0011]所述步骤3中添加辅助任务的过程包括:
[0012]3‑1:根据位置获得训练过程中每一批次所有样本的主体表征和客体表征

[0013]3‑2:根据所有的实体表征向量与客体表征向量进行相似度计算得到损失值

[0014]3‑3:根据损失值进行反向传播,更新模型参数,进行模型训练

[0015]所述根据所有提示表征向量与合体表征向量进行相似度计算得到损失值具体包括:
[0016]将训练过程中一个批次所有样本中的所有关系的主体表征和客体表征分别按照第一维拼接得到两个新的张量,再将其按照第二维求平均得到两个新的矩阵

在此过程中需要保证相同关系的主体和客体在第一维一一对应,在计算相似度时需要保证对应的关系主体客体相似度尽可能大,非对应的相似度主体客体相似度尽可能小,其规则如下述
(a)
式所示:
[0017][0018]其中,
S
表示主体矩阵,
S

[s1,
s2,
.....

s
n
]s
i
表示第
i
个关系的主体,表示计算相似度,
O
表示客体矩阵,
O

[o1,
o2,
.....

o
n
]o
i
表示第
j
个关系的客体

[0019]构建标签使得对应关系之间的关系为1,标签构造规则如下表1所示:
[0020]表1标签构造规则
[0021][0022][0023]在计算交叉熵损失过程中不需要刻意为非对应关系的主客体设置标签,计算损失时会使他们尽可能大

[0024]进一步的,计算相似度的过程为:主体表征向量与客体表征向量分别为
S

[s1,
s2,
.....

s
n
],
O

[o1,
o2,
.....

o
n
],其计算如下述
(b)
式所示:
[0025][0026]其中,
subject
表示主体向量,
object
表示客体向量,
||subject||
表示主体向量的模,
||object||
表示客体向量的模

[0027]进一步的最终的损失具体包含四部分:
[0028]对比学习损失,实体抽取损失,序列中主体,客体的开始位置损失,以及序列中主体客体的结束位置损失

[0029]所述得到三种起始指针和终止指针用于训练模型,对于关系抽取任务,需要三个全局指针器

一个用于抽取实体,它是输入的子序列

全局指针器将输出一个
G
C
×
L...

【技术保护点】

【技术特征摘要】
1.
一种自动构建高端装备制造业故障知识图谱的方法,其特征在于,该方法包括:获得待抽取的故障案例样本,将样本输入到故障案例知识关系抽取模型,并将得到预测关系的类型和关系的主体与客体,对故障案例样本进行训练,自动构建高端装备制造业故障知识图谱,所述故障案例样本的训练包括下述步骤:步骤1:案例样本处理对收集到的故障案例样本按关系主体客体的边界位置和关系的类型对数据进行标注;步骤2:文本表征将样本映射为词表中对应的索引,并送入在大量语料上预训练过的自注意力模型,得到文本表征;步骤3:起始和终止指针的获取在文本表征中加入位置信息,然后对其进行解码,得到三个全局指针器的起始指针和终止指针,并在此添加辅助任务;4:训练模型将得到的三种起始指针和终止指针多次迭代训练故障案例知识关系抽取模型,得到最优模型并保存模型参数,实现自动构建高端装备制造业故障知识图谱
。2.
根据权利要求1所述的自动构建高端装备制造业故障知识图谱的方法,其特征在于,所述步骤3得到三个全局指针器的起始指针和终止指针,一个全局指针器用于抽取实体,它是输入的子序列,全局指针器将输出一个
G
C
×
L
×
L
矩阵,其中
C
为类数,表示关系类型的数量;
L
为序列长度,表示输入序列的最大长度;找到大于阈值的元素,即
g
cij
>threshold
,其中
c∈C
表示一种关系类型;
i∈L
表示实体在序列中的起始位置;
j∈L
表示实体在序列中的结束位置;另一个全局指针器用于抽取相关主体和客体的头位置,全局指针器的输出形状与用于抽取实体的全局指针相同,而每个元素
g
cij
具有不同的含义,
c∈C
表示一种关系类型;
i∈L
表示主体实体的头部;
j∈L
表示客体实体的头部;最后一个全局指针器输出中的每个元素
g
cij
表示输入序列中有关系的主体实体和客体实体的结束位置,在将三个全局指针器输出结合后,就可获得关系三元组
(s,r,o)。3.
根据权利要求1所述的自动构建高端装备制造业故障知识图谱的方法,其特征在于,所述所述步骤3中添加辅助任务具体包括:3‑1:根据位置获得训练过程中每一批次所有样本的主体表征和客体表征;3‑2:根据所有的实体表征向量与客体表征向量进行相似度计算,得到交叉熵...

【专利技术属性】
技术研发人员:金勇男沈超敏
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1