一种基于BERT与注意力机制的军事装备关系抽取方法技术

技术编号：34241324 阅读：20 留言：0更新日期：2022-07-24 09:19

本发明专利技术公开了一种基于BERT与注意力机制的军事装备关系抽取方法。通过采用实体、关系联合抽取的方式完成军事新闻中装备目标关系信息抽取。第一步，构建BERT层，进行文本特征信息提取。第二步，分成实体抽取和关系抽取两个分支。实体抽取在BERT网络上加入全连接层和条件随机场进行标签序列预测与优化。关系抽取分支在BERT网络输出的基础上嵌入关系起始实体和结束实体的标签特征以及起始和结束标志特征，再通过GRU和注意力层挖掘实体间关系，最后通过全连接层预测关系。第三步，训练时将实体抽取和关系抽取分支的损失值相加，通过同一个优化器进行优化。实验结果表明，本发明专利技术有在中文文本关系抽取上是有效的。文文本关系抽取上是有效的。文文本关系抽取上是有效的。

A military equipment relationship extraction method based on Bert and attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT与注意力机制的军事装备关系抽取方法

[0001]本专利技术涉及文本关系抽取
，尤其涉及一种基于BERT与注意力机制的军事装备关系抽取方法。

技术介绍

[0002]随着信息技术及网络水平飞速发展，信息量呈现爆炸性增长的状态，如何从海量信息中提取出重要信息，应用于信息服务中成为当今的研究热点。文本信息处理包含实体抽取、关系抽取、事件抽取、机器阅读理解等方向。其中，关系抽取建立实体间的关系，进而将文本信息转变为结构化数据，为下游应用如中文信息内容检索、知识图谱构建等提供数据支撑。
[0003]关系抽取主要包括有监督的实体关系抽取方法、半监督的实体关系抽取方法、无监督的实体关系抽取方法。无监督的实体关系抽取方法包括实体聚类和关系类型词选择两部分，但存在特征提取不准、聚类结果不合理、关系结果准确率较低等问题。半监督的实体关系抽取方法，例如Bootstrapping，该方法从包含关系种子的文本中总结实体关系序列模式，然后以此去发现更多的关系种子实例。但存在迭代过程中混入噪声，造成语义漂移的问题。有监督的实体关系抽取方法主要思想是在已标注的数据上面训练机器学习模型，对测试数据进行关系识别。有监督的实体关系抽取方法分为基于规则的关系抽取方法，基于特征的关系抽取方法。基于规则的关系抽取方法根据语料和领域通过总结归纳规则或模板，通过模板匹配进行实体关系抽取。此类方法在依赖于命名实体识别系统与距离计算等，容易增加额外的传播错误与耗时。基于特征的关系抽取方法主要利用机器学习方法，如RNN(Recurrent N...

【技术保护点】

【技术特征摘要】
1.一种基于BERT与注意力机制的军事装备关系抽取方法，其特征在于，包括如下步骤：步骤1，对文本语料进行实体标注和关系标注，获得标注数据；步骤2，对标注数据进行预处理，生成文本关系抽取模型训练集和测试集；步骤3，构建文本关系抽取模型；步骤4，进行文本关系抽取模型训练，获得训练后的文本关系抽取模型；步骤5，将测试集数据输入训练后的文本关系抽取模型，获得关系抽取结果。2.根据权利要求1所述的一种基于BERT与注意力机制的军事装备关系抽取方法，其特征在于，步骤1中，所述标注数据包括三部分，第一部分为文本预料的原文，第二部分为实体标注数据，第三部分为关系标注数据；步骤2中对标注数据进行预处理包括：实体标注数据表示为{实体起始位置，实体结束位置，实体标签}的形式，再转换为BMES实体标注体系；将关系标注数据转化为{第一实体，第二实体，关系，第一实体起始位置，第一实体结束位置，第一实体标签，第二实体起始位置，第二实体结束位置，第二实体标签}的形式；步骤2中生成文本关系抽取模型训练集和测试集按照7：3的比例分别切分实体标注数据和关系标注数据切分。3.根据权利要求2所述的一种基于BERT与注意力机制的军事装备关系抽取方法，其特征在于，步骤3中，所述文本关系抽取模型包括BERT层、实体抽取分支和关系抽取分支；所述BERT层，用于对输入文本进行深度特征提取，获得输入文本特征；所述实体抽取分支，用于将输入文本特征映射到实体标签，获得实体标签序列向量，然后对实体标签序列向量进行预测，获得实体类别；所述关系抽取分支，通过对BERT输出和实体识别输出的组合特征进行分类预测，获得两个实体间的关系类别。4.根据权利要求3所述的一种基于BERT与注意力机制的军事装备关系抽取方法，其特征在于，步骤3中所述实体抽取分支依次包括全连接层和条件随机场层，所述全连接层用于将输入文本特征映射到实体标签，获得实体标签序列向量，记为h1,h2,...,h
n
，n为模型输入最大长度；所述条件随机场层用于对实体标签序列向量进行优化和预测，获得实体类别；标签序列y的概率P(y|s)计算为：这里，s表示输入的句子，m表示标签序列y中标签的个数，标签序列y中的标签包括l1,l2,...,l
m
；y
′
表示任意的标签序列；i表示标签序列y和y
’
的标签索引，1≤i≤m；表示标签序列y对应的权值向量，表示标签序列y对应的偏移量，表示标签序列y
’
对应的权值向量，表示标签序列y
’
对应的偏移量；然后通过一阶Viterbi算法寻找最佳标签序列，获得实体类别。5.根据权利要求4所述的一种基于BERT与注意力机制的军事装备关系抽取方法，其特征在于，步骤3中所述关系抽取分支依次包括特征组合层、双向GRU层、注意力层和Softmax分类器，所述特征组合层用于对输入文本特征和实体类别进行组合，获得关系抽取输入特征，记为E
r
；
所述双向GRU层，用于获得抽象特征；所述注意力层，用于模拟人在阅读信息时注意力机制，重点关注局部特征，记注意力层输出特征为A；所述Softmax分类器，用于将注意力层输出特征A映射到实体关系类别，获得各类别的概率...

【专利技术属性】
技术研发人员：王鑫鹏，阮国庆，李晓冬，吴蔚，徐建，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人