【技术实现步骤摘要】
一种基于BERT的军事领域复合命名实体识别方法
[0001]本专利技术属于自然语言处理领域。
技术介绍
[0002]近年来,日渐成熟和发展的计算机以及相关信息处理技术,为进一步提高军事指挥效能提供了有效手段,我军信息化和智能化建设稳步推进。知识图谱作为一种新兴技术,能够将复杂、海量的数据整合到一起,通过挖掘到的关系将数据相互联系起来,有着强大的数据描述能力和丰富的语义关系功能。实体是文本中承载信息的重要语言单位,也是构成知识图谱的核心元素。实体识别与抽取是进行后续的属性关系抽取、事件抽取、知识图谱构建等工作的基础,其主要任务是识别出文本中的具有特定意义的实体并加以归类,例如通用领域一般以人名、地名、机构名为抽取目标。本文的研究对象是军事领域的目标实体,指存在于非结构化军事文本中具有高价值的命名实体,如军事人物、武器装备、军事事件等,它们往往蕴含着丰富的军事知识。正确而高效地识别军事命名实体,可为后续的战场情报获取、信息检索、信息过滤、信息关联、语义搜索等工作提供支持,提升情报侦察、指挥决策、组织实施等行动的效率,进一步提高军事作战指挥自动化、智能化性能。
[0003]命名实体识别是信息抽取领域的一个重要研究方向,意为将含有实体的非结构化文本所涉及的实体从中抽出。复合命名实体识别是对命名实体识别特定情况的优化,其核心目标为从文本中抽取出其中所有可能为实体的所有元素,且区分出实体与实体间的嵌套情况。
[0004]目前学者们对普通命名实体识别关注更多,而对复合命名实体识别的研究有限。因此,现存方法大多只能进 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT的军事领域复合命名实体识别方法,其特征在于,该方法目标是将对军事领域事件语句中的简单实体与嵌套实体进行识别和分类,方法的步骤如下:步骤1:在输入层中选取特征构建字向量与词向量,并进行数据增强;步骤2:在编码层捕获层级结构信息和序列信息;步骤3:在注意力层捕获句中词
‑
词间的信息并计算相应权重;步骤4:在解码层综合之前的特征并进一步提取抽象特征;步骤5:在输出层使用softmax函数和CRF算法得出要素识别结果。2.根据权利要求1所述的基于BERT的军事领域复合命名实体识别方法,其特征在于,所述步骤1中在输入层中选取特征构建字向量与词向量,并进行数据增强具体的指的是:在进行军事领域复合命名实体识别任务中,本文选取了字向量、词向量两类特征,用L={w1,w2,
…
,w
n
}所示的方式表示一个句子;其中句子长度为n,句中第i个单词为w
i
,我们将每个单词w
i
转换由以下两部分构成的向量x
i
;步骤1.1:训练字向量BERT层的输入部分由每个字符的词嵌入(token embedding)、句子嵌入(segment embedding)和位置嵌入(position embedding)的叠加组成。另外,由于实验语料为单句输入,所以使用字嵌入表示句子信息,以符号[CLS]和[SEP]插入句首和句尾表示句子序列。BERT层将句子中的每个字映射为低维稠密的字向量。本发明中,BERT利用双向Transformer计算训练将句子中每个字映射为低纬稠密字向量。步骤1.2:训练词向量用e(w
i
)表示单词w
i
的词向量。本发明训练Word2Vec过程中使用的是Python Gensim主题模型包中的Word2Vec,采用Skip
‑
gram模型。本发明在BERT提取字特征的基础上,引入词性、边界的语义特征作为后续神经网络的表示特征之一。本发明将原有的通用领域的部分词性划分去除,引入具有军事特色的词性标记集合,将军事领域相关的命名实体的词性和类型囊括进去。模型定义的军事领域嵌套实体,如图3所示。已具备良好分词结果的词性语料中的每个词性通过查表,即可得到相对应的词性向量表示P
i
(POS embedding),然后将其与字序列通过BERT预训练模型得到的字向量C
i
采取合适的方式进行拼接融合,得到混合特征向量表示H
i
。利用中文文本潜在信息,更好地利用中文词性规则,而且引入字模型中忽略的词语边界信息,在模型词嵌入层融合词汇信息和实体边界信息。从而在进行实体识别时辅助模型对实体类型及边界进行判别,起到提高模型识别能力的作用。在通过BERT、W2V分别获得两种向量表示后,将两种向量通过拼接的方式组合,融合文本联合特征。如图4所示。步骤1.3:数据增强本发明模型的训练数据来自部分案宗,为了提升军事领域嵌套实体识别模型性能,引入4种操作来进行数据增强,以防止过拟合,并提高模型的泛化能力。1)同义词替换(SR:Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。
2)随机插入(RI:Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。3)随机交换(RS:Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。4)随机删除(RD:Randomly Delete):句子中的每个词,以概率p随机删除。通过在拼接词向量表示层之上添加数据增强操作来增强原始输入信息,如图5所示。本文输入表示层模型包含融合BERT字向量与W2V的词嵌入以及增强数据操作,通过在训练数据时加入小的扰动函数。如公式1所示。化。其中,是当前模型参数的副本。然后,对原始例子和生成的增强数据语句进行联合训练,因此最终损失如公式2所示。综上所述,单词w
i
的实值向量x
i
可用下式表示,如公式3所示。其中,x
i
∈R
d
,维度为d维,表示以拼接的方式合并向量,可以用X={x1,x2,
…
,x
n
}表示一个长为n的事件句L;其中,X∈R
n
×
d
,维度为n
×
d维,x
i
是第i个单词w
i
的实值向量。3.根据权利要求2所述的基于编解码模型进行事件要素实体关系抽取方法,其特征在于,所述步骤2中的在编码层捕获层级结构信息和序列信息具体指的是:针对不同的任务,编码层和解码层可以选用不同的组合方式,比如,在图像处理任务上,通常使用卷积神经网络构成编码层,不过对于事件要素抽取这样的自然语言处理领域任务,通常会选取循环神经网络;一个句子因为能表示为层级结构,而以往的LSTM等循环神经网络内部的神经元通常都是无序的,导致其无法提取句子的层级信息;因此,本发明选用双向有序长短期记忆网络(Bi
‑
OnLSTM)作为编码层基本结构;On
‑
LSTM的前向计算公式,如公式4所示:其中,ON
‑
LSTM主要是新增了主遗忘门主输入门主输入门和分别是右向/左向的cumsum操作;
用前向的On
‑
LSTM计算t时刻词语x
t
左边的状态再利用后向On
‑
LSTM计算t时刻词语x
t
右边的状态则编码层在t时刻的输出结果即为4.根据权利要求3所述的基于编解码模型进行事件要素实体关系抽取的方法,其特征在于,所述步骤3中的在注意力层捕获句中词
‑
词间的信息并计算相应权重具体是指:注意力层是本发明模型的核心部分。简单来说,注意力机制就是在大量特征中忽略不重要的特征,同时加强对有用特征的关注度。注意力机制分为Soft
‑
Attention模型、Self
‑
Attenti on模型两种,如图7所示是本发明所用注意力机制的核心思想。在Soft
‑
Attention模型中,首先将输入序列S中的词语抽象为一个个形如<Key,Value>的数据对,则对于目标序列T中的某词语Query而言,输入序列中的各个Key所对应的权重系数Value由计算和该Key与Query的相关性可得,对所有Key对应的Value进行加权求和可得最后的注意力(Attention Value),如公式5所示。其中,输入序列S的长度为L
x
。Self
‑
Attention模型也被称为自注意力机制,Google最新的机器翻译模型就采用了该模型。在Soft
‑
Attention模型中,注意力机制主要作用在输入序列S中的每个词语和目标序列T中的Query之间。而在Self
‑
Attention模型中...
【专利技术属性】
技术研发人员:周焕来,张博阳,乔磊崖,高源,郭健煜,唐小龙,贾海涛,王俊,
申请(专利权)人:一拓通信集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。