一种风洞故障文本知识的实体关系抽取方法技术

技术编号:31807764 阅读:37 留言:0更新日期:2022-01-08 11:10
一种风洞故障文本知识的实体关系抽取方法,该方法步骤如下:1、定义知识结构;2、划分训练集和测试集;3、实体标注;4、关系标注;5、数据预处理;6、将训练集输入模型词嵌入层,训练词嵌入矩阵;7、词嵌入矩阵输入模型双向GRU层,提取文字级特征;8、文字级特征集合输入模型多头注意力层,生成权重向量。权重向量与文字级特征相乘,得到句子级特征;9、句子级特征输入模型输出层,得到关系类别;10、迭代训练;11、模型测试与评价;本发明专利技术提出了一种基于双向GRU和多头注意力机制的风洞故障实体关系抽取方法,通过从风洞故障文本中抽取知识,实现非结构化故障数据向结构化数据的转化,提高文本知识在风洞健康监测及故障诊断过程中的利用效率。风洞健康监测及故障诊断过程中的利用效率。风洞健康监测及故障诊断过程中的利用效率。

【技术实现步骤摘要】
一种风洞故障文本知识的实体关系抽取方法


[0001]本专利技术涉及风洞故障诊断及实体关系抽取
,特别是一种风洞故障文本知识的实体关系抽取方法,是基于双向门控循环网络(Bidirectional Gate Recurrent Unit,缩写为BiGRU)和多头注意力机制(Multi

head Attention)的风洞故障知识的实体关系抽取方法。

技术介绍

[0002]风洞是研究飞行器空气动力学特征的重要试验设备,其健康状态对试验结果可靠性及试验人员安全性至关重要。风洞的设计、制造、使用、维修等部门在长期的生产实践过程中累积了大量的故障相关文本知识,对风洞设备的健康状态监测及故障诊断极具利用价值。
[0003]目前这些文本知识通常以非结构化的形式存储,不利于计算机处理和理解,仅由人工查阅分析,耗费人力,且存在着严重的故障知识无法高效复用的问题。
[0004]关系抽取作为知识抽取的主要任务之一,其目的是从非结构化文本中抽取实体之间显式或隐式的语义关联,解决关系分类问题。最终将文本知识转化成计算机能够处理本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种风洞故障文本知识的实体关系抽取方法,该方法基于双向GRU网络(BiGRU)和多头注意力机制(Multi

head Attention),其步骤如下:步骤一、根据知识抽取的目的,对风洞故障知识结构进行定义;步骤二、风动故障文本训练集和风动故障文本测试集:选取部分风洞故障知识文本,划分为训练集和测试集;步骤三、实体标注:对训练集进行实体标注一和测试集进行实体标注二;步骤四、关系标注:对训练集进行关系标注一和测试集进行关系标注二;步骤五、训练集预处理和测试集预处理:对标注好的训练集和测试集文本知识进行预处理;步骤六、词嵌入:将预处理后的训练集输入关系抽取模型的词嵌入(Embedding)层,训练词向量,得到词嵌入矩阵;步骤七、文字级特征提取:将训练集的词嵌入矩阵输入关系抽取模型的双向GRU网络层,提取文字级特征向量;步骤八、句子级特征提取:将文字级特征向量集合输入关系抽取模型的多头注意力层,生成权重向量,将文字级特征向量权重向量相乘,得到句子级特征;步骤九、关系分类:将句子级特征向量输入关系抽取模型的输出层,得到关系类别;步骤十、模型迭代训练:对关系抽取模型进行迭代训练;步骤十一、模型测试:使用测试集预处理的词嵌入数据对训练好的关系抽取模型进行测试,并评估测试结果,得到最终的关系抽取模型。2.根据权利要求1所述的一种风洞故障文本知识的实体关系抽取方法,其特征在于:步骤五所述的预处理,具体方法如下:(1)根据实体标注结果,将文本进行语句切分;(2)将训练集整理为“实体1实体2关系句子”的形式,其中句子需要包含实体1和实体2;(3)将测试集整理为“实体1实体2句子”的形式,其中句子需要包含实体1和实体2。3.根据权利要求1所述的一种风洞故障文本知识的实体关系抽取方法,其特征在于:步骤六、词嵌入的具体方式是:对于一个至少包含两个实体的句子S={x1,x2,...,x
t
},使用word2vec将每一个字x
i
转换为实数向量e
i
,对于S中的每一个字来说,首先存在一个向量矩阵W
wrd
,可以将x
i
转化为其向量的表示:e
i
=W
wrd
v
i
ꢀꢀꢀꢀ
(1)其中,v
i
是一个大小为|V|的one

hot向量,在下标为e
i
处为1,其他位置为0;于是,句子S将被转化为一个实数矩阵:E
s
={e1,e2,...,e
t
},并传递给模型的下一层。4.根据权利要求1所述的一种风洞故障文本知识的实体关系抽取方法,其特征在于:步骤七、文字级特征提取的所述的BiGRU的原理如下:(1)对于每个GRU cell,给定字向量e
i
和上一文字隐藏状态H
i
‑1,重置门R
t
和更新门Z
t
的计算如下:R
t
=σ(e
i
W
er
+H
i
‑1W
hr
+b
r
)
ꢀꢀꢀꢀꢀ
(2)Z
t
=σ(e
i
W
ez
+H
i
‑1W
hz
+b
z
)
ꢀꢀꢀ
(3)其中W
er
,W
ez
和W
hr
,W
hz
是权重矩阵,b
r
,b
z
是偏置项。σ代表激活函数sigmoid函数。
sigmoid函数可以将元素的值变换到0和1之间。因此,R
i
和i的值域都是[0,1]。如果R
i
的值接近0,则意味着重置对应隐藏状态的值为0,即丢弃上一字向量的隐藏状态。如果R
i
值接近1,则表示保留上一个字向量的隐藏状态。(2)计算候选隐藏状态,为隐藏状态的计算提供辅助。给定字向量e
i
的候选隐藏状态的计算公式为:其中W
eh...

【专利技术属性】
技术研发人员:程玉杰马可马梁陶来发吕琛
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1