一种基于BERT的军事领域复合命名实体识别方法技术

技术编号:35331323 阅读:49 留言:0更新日期:2022-10-26 11:48
本发明专利技术提出了一种基于BERT的军事领域复合命名实体识别的方法,该方法包括:在输入层利用BERT预训练模型表示字向量、利用Word2Vec表示词向量,二者联合进行Word Embedding,然后引入数据增强操作,拼接在词向量表示层之上来增强原始输入信息,构建句子初始向量;在编码层使用Bi

【技术实现步骤摘要】
一种基于BERT的军事领域复合命名实体识别方法


[0001]本专利技术属于自然语言处理领域。

技术介绍

[0002]近年来,日渐成熟和发展的计算机以及相关信息处理技术,为进一步提高军事指挥效能提供了有效手段,我军信息化和智能化建设稳步推进。知识图谱作为一种新兴技术,能够将复杂、海量的数据整合到一起,通过挖掘到的关系将数据相互联系起来,有着强大的数据描述能力和丰富的语义关系功能。实体是文本中承载信息的重要语言单位,也是构成知识图谱的核心元素。实体识别与抽取是进行后续的属性关系抽取、事件抽取、知识图谱构建等工作的基础,其主要任务是识别出文本中的具有特定意义的实体并加以归类,例如通用领域一般以人名、地名、机构名为抽取目标。本文的研究对象是军事领域的目标实体,指存在于非结构化军事文本中具有高价值的命名实体,如军事人物、武器装备、军事事件等,它们往往蕴含着丰富的军事知识。正确而高效地识别军事命名实体,可为后续的战场情报获取、信息检索、信息过滤、信息关联、语义搜索等工作提供支持,提升情报侦察、指挥决策、组织实施等行动的效率,进一步提高军事作战指挥自动化、智能化性能。
[0003]命名实体识别是信息抽取领域的一个重要研究方向,意为将含有实体的非结构化文本所涉及的实体从中抽出。复合命名实体识别是对命名实体识别特定情况的优化,其核心目标为从文本中抽取出其中所有可能为实体的所有元素,且区分出实体与实体间的嵌套情况。
[0004]目前学者们对普通命名实体识别关注更多,而对复合命名实体识别的研究有限。因此,现存方法大多只能进行普通命名实体识别,在面对复合实体时无法取得良好的效果,因此这些模型不具备良好的可移植性,难以完成开放域的实体抽取任务。与大多学者的选择不同,本专利技术在实体抽取阶段采用与普通命名实体识别完全不同的模型。鉴于编解码器框架、注意力机制在其他自然语言处理任务上的良好表现,且本专利技术所研究的任务究其根本也属于序列标注任务的一种,因此,本专利技术以编解码器框架为基础,搭建了结合注意力机制对事件要素中复合实体进行抽取的模型。

技术实现思路

[0005]本专利技术提出一种基于编解码模型进行复合实体抽取的方法,目的在于提高复合实体抽取的准确率和效率。该方法步骤如下:
[0006](1)在输入层选取特征构建句子初始向量。
[0007](2)在编码层捕获层级结构信息和序列信息。
[0008](3)在注意力层捕获句中词

词间的信息并计算相应权重。
[0009](4)在解码层综合之前的特征并进一步提取抽象特征。
[0010](5)在输出层使用softmax函数得出要素识别结果。
附图说明
[0011]图1为本专利技术采用的编解码器框架图。
[0012]图2为本专利技术采用的构建文本向量的特征示意图。
[0013]图3为本专利技术定义军事嵌套实体类型。
[0014]图4为本专利技术输入层联合词嵌入表示。
[0015]图5为在表示层后添加EDA数据增强示意图。
[0016]图6为On

LSTM结构图。
[0017]图7为本专利技术所用注意力机制的核心思想。
[0018]图8为复合实体标签示意图。
[0019]图9为解码层总体结构图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0021]如图1所示,本专利技术主要以编解码器框架为基础,并结合注意力机制进行事件要素抽取,主要由输入层(Input Layer)、编码层(Encoder Layer)、注意力层(Attention Layer)、解码层(Decoder Layer)和输出层(Output Layer)五部分构成。具体实施方式如下:
[0022]步骤一:输入层
[0023]在其他命名实体抽取模型中,中文分词获取的实体边界和词性特征是常被用于命名实体识别模型的两大特征。但在实际应用中,想要获取嵌套实体,在文本预处理阶段使用自然语言处理工具(如哈工大LTP)获取分词、词性等信息,会造成误差传播,从而降低模型性能。因此,为确保实体识别模型的准确率和效率,本文选取能从文本中直接提取出的原始特征。
[0024]本专利技术中,词嵌入将文本序列映射到高维向量空间模型构建,融合了已有研究中效果较好的策略,通过预训练语义模型BERT(Bidirectional EncoderRepresentations from Transformers)获取蕴含全文信息的中文单字嵌入,利用字向量中的语言规律和语义知识辅助军事领域嵌套实体的识别;同时,融合 Word2Vec技术,引入中文词汇的边界特征、词性特征,提升实体识别的性能。
[0025]本专利技术在向量表示层输出到编码器的中间加入数据增强,生成句子向量表示的负例,增强模型训练的性能。
[0026]如图2所示,在军事领域嵌套实体识别任务中,本专利技术选取了BERT字向量 (位置特征、句子特征、字特征)、W2V词向量(词性特征、边界特征)。图2 中,该句中的嵌套实体“跨境商业合同谈判”作为一个嵌套名词属于目标事件实体类别。用L={w1,w2,

,w
n
}表示一个句子。
[0027]其中句子长度为n,句中第i个单词为w
i
,我们将每个单词w
i
转换由以下三部分构成的向量x
i

[0028]本专利技术输入层的3个步骤如下:
[0029]1.BERT字向量表示
[0030]BERT层的输入部分由每个字符的词嵌入(token embedding)、句子嵌入 (segment embedding)和位置嵌入(position embedding)的叠加组成。另外,由于实验语料为单句输入,所以使用字嵌入表示句子信息,以符号[CLS]和[SEP] 插入句首和句尾表示句子序列。BERT层将句子中的每个字映射为低维稠密的字向量。
[0031]本专利技术中,BERT利用双向Transformer计算训练将句子中每个字映射为低纬稠密字向量。
[0032]2.Word2Vec词向量表示
[0033]用e(w
i
)表示单词w
i
的词向量。本专利技术训练Word2Vec过程中使用的是 Python Gensim主题模型包中的Word2Vec,采用Skip

gram模型。
[0034]本专利技术在BERT提取字特征的基础上,引入词性、边界的语义特征作为后续神经网络的表示特征之一。本专利技术将原有的通用领域的部分词性划分去除,引入具有军事特色的词性标记集合,将军事领域相关的命名实体的词性和类型囊括进去。模型定义的军事领域嵌套实体,如图3所示。
[0035]已具备良好分词结果的词性语料中的每个词性通过查表,即可得到相对应的词性向量表示P
i
(POS em本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的军事领域复合命名实体识别方法,其特征在于,该方法目标是将对军事领域事件语句中的简单实体与嵌套实体进行识别和分类,方法的步骤如下:步骤1:在输入层中选取特征构建字向量与词向量,并进行数据增强;步骤2:在编码层捕获层级结构信息和序列信息;步骤3:在注意力层捕获句中词

词间的信息并计算相应权重;步骤4:在解码层综合之前的特征并进一步提取抽象特征;步骤5:在输出层使用softmax函数和CRF算法得出要素识别结果。2.根据权利要求1所述的基于BERT的军事领域复合命名实体识别方法,其特征在于,所述步骤1中在输入层中选取特征构建字向量与词向量,并进行数据增强具体的指的是:在进行军事领域复合命名实体识别任务中,本文选取了字向量、词向量两类特征,用L={w1,w2,

,w
n
}所示的方式表示一个句子;其中句子长度为n,句中第i个单词为w
i
,我们将每个单词w
i
转换由以下两部分构成的向量x
i
;步骤1.1:训练字向量BERT层的输入部分由每个字符的词嵌入(token embedding)、句子嵌入(segment embedding)和位置嵌入(position embedding)的叠加组成。另外,由于实验语料为单句输入,所以使用字嵌入表示句子信息,以符号[CLS]和[SEP]插入句首和句尾表示句子序列。BERT层将句子中的每个字映射为低维稠密的字向量。本发明中,BERT利用双向Transformer计算训练将句子中每个字映射为低纬稠密字向量。步骤1.2:训练词向量用e(w
i
)表示单词w
i
的词向量。本发明训练Word2Vec过程中使用的是Python Gensim主题模型包中的Word2Vec,采用Skip

gram模型。本发明在BERT提取字特征的基础上,引入词性、边界的语义特征作为后续神经网络的表示特征之一。本发明将原有的通用领域的部分词性划分去除,引入具有军事特色的词性标记集合,将军事领域相关的命名实体的词性和类型囊括进去。模型定义的军事领域嵌套实体,如图3所示。已具备良好分词结果的词性语料中的每个词性通过查表,即可得到相对应的词性向量表示P
i
(POS embedding),然后将其与字序列通过BERT预训练模型得到的字向量C
i
采取合适的方式进行拼接融合,得到混合特征向量表示H
i
。利用中文文本潜在信息,更好地利用中文词性规则,而且引入字模型中忽略的词语边界信息,在模型词嵌入层融合词汇信息和实体边界信息。从而在进行实体识别时辅助模型对实体类型及边界进行判别,起到提高模型识别能力的作用。在通过BERT、W2V分别获得两种向量表示后,将两种向量通过拼接的方式组合,融合文本联合特征。如图4所示。步骤1.3:数据增强本发明模型的训练数据来自部分案宗,为了提升军事领域嵌套实体识别模型性能,引入4种操作来进行数据增强,以防止过拟合,并提高模型的泛化能力。1)同义词替换(SR:Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。
2)随机插入(RI:Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。3)随机交换(RS:Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。4)随机删除(RD:Randomly Delete):句子中的每个词,以概率p随机删除。通过在拼接词向量表示层之上添加数据增强操作来增强原始输入信息,如图5所示。本文输入表示层模型包含融合BERT字向量与W2V的词嵌入以及增强数据操作,通过在训练数据时加入小的扰动函数。如公式1所示。化。其中,是当前模型参数的副本。然后,对原始例子和生成的增强数据语句进行联合训练,因此最终损失如公式2所示。综上所述,单词w
i
的实值向量x
i
可用下式表示,如公式3所示。其中,x
i
∈R
d
,维度为d维,表示以拼接的方式合并向量,可以用X={x1,x2,

,x
n
}表示一个长为n的事件句L;其中,X∈R
n
×
d
,维度为n
×
d维,x
i
是第i个单词w
i
的实值向量。3.根据权利要求2所述的基于编解码模型进行事件要素实体关系抽取方法,其特征在于,所述步骤2中的在编码层捕获层级结构信息和序列信息具体指的是:针对不同的任务,编码层和解码层可以选用不同的组合方式,比如,在图像处理任务上,通常使用卷积神经网络构成编码层,不过对于事件要素抽取这样的自然语言处理领域任务,通常会选取循环神经网络;一个句子因为能表示为层级结构,而以往的LSTM等循环神经网络内部的神经元通常都是无序的,导致其无法提取句子的层级信息;因此,本发明选用双向有序长短期记忆网络(Bi

OnLSTM)作为编码层基本结构;On

LSTM的前向计算公式,如公式4所示:其中,ON

LSTM主要是新增了主遗忘门主输入门主输入门和分别是右向/左向的cumsum操作;
用前向的On

LSTM计算t时刻词语x
t
左边的状态再利用后向On

LSTM计算t时刻词语x
t
右边的状态则编码层在t时刻的输出结果即为4.根据权利要求3所述的基于编解码模型进行事件要素实体关系抽取的方法,其特征在于,所述步骤3中的在注意力层捕获句中词

词间的信息并计算相应权重具体是指:注意力层是本发明模型的核心部分。简单来说,注意力机制就是在大量特征中忽略不重要的特征,同时加强对有用特征的关注度。注意力机制分为Soft

Attention模型、Self

Attenti on模型两种,如图7所示是本发明所用注意力机制的核心思想。在Soft

Attention模型中,首先将输入序列S中的词语抽象为一个个形如<Key,Value>的数据对,则对于目标序列T中的某词语Query而言,输入序列中的各个Key所对应的权重系数Value由计算和该Key与Query的相关性可得,对所有Key对应的Value进行加权求和可得最后的注意力(Attention Value),如公式5所示。其中,输入序列S的长度为L
x
。Self

Attention模型也被称为自注意力机制,Google最新的机器翻译模型就采用了该模型。在Soft

Attention模型中,注意力机制主要作用在输入序列S中的每个词语和目标序列T中的Query之间。而在Self

Attention模型中...

【专利技术属性】
技术研发人员:周焕来张博阳乔磊崖高源郭健煜唐小龙贾海涛王俊
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1