一种多神经网络协作的军事领域命名实体识别方法技术

技术编号:25690899 阅读:60 留言:0更新日期:2020-09-18 21:02
本发明专利技术提出了一种多神经网络协作的军事领域命名实体识别方法,包括以下步骤:步骤A:获取公开的微博数据,形成原始数据集;步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;步骤C:针对原始数据集进行文本预处理,结合步骤B实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;步骤D:利用深度学习和统计学习的框架,训练了基于BERT‑BiLSTM‑CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对微博为代表的中文社交文本的军事领域命名实体识别任务。

【技术实现步骤摘要】
一种多神经网络协作的军事领域命名实体识别方法
本专利技术属于军事
,涉及一种多神经网络协作的命名实体识别方法,特别针对军事领域实体的命名实体识别方法。
技术介绍
命名实体识别是进行智能问答、知识图谱等自然语言处理研究的基础工作,一直受到研究者的关注。早期的命名实体识别研究大多采用基于规则和基于字典的方法,依赖于大量手工设定的识别规则,很难对语料全面覆盖,并且规则的制定往往依赖于数据集,当数据集发生变化即需要更新规则。基于统计学习的实体识别方法避免了大量规则的制定,其将命名实体识别问题转化为序列化标注问题,但是,基于统计学习的命名实体识别方法依赖于预先定义的特征,特征工程不仅代价高而且与特定领域相关,导致领域知识提高了模型的识别有效性的同时牺牲了模型的泛化能力和迁移能力。计算能力的提升以及词的分布式表示技术的支持,使得基于深度神经网络的命名实体识别任务不再依赖特征工程,并取得了显著的研究进展。目前已有研究证明在中文命名实体识别中应用字向量表征的识别准确度要优于应用词向量表征的方式;已有研究者使用卷积神经网络、BiLSTM、CRF等进行模型网络结构的设计,并在生物医药等专有领域的实体识别中取得较好的识别效果;针对军事领域,有研究者针对作战文书、想定文书等规范的文本进行实体识别工作,取得了积极、客观的研究成果。然而,电子病历、军事文本、作战文书等规范化文本中实体分布相对密集、具有一定的规律且实体边界较为清晰,而微博、Tweets等社交媒体数据中实体分布稀疏,实体表达不规范,实体边界常常不清晰,因而如何面向微博等含有模糊边界实体的社交媒体数据进行军事领域的命名实体识别成为一个新的研究问题。
技术实现思路
本专利技术的目的在于提供一种军事领域的命名实体识别方法,其包括:提出针对实体模糊边界的实体标注机制解决实体识别任务中实体边界难以界定以及实体简化表达的问题;利用多神经网络协作的基于Transformer的双向编码器(BERT)并结合双向长短时记忆神经网络(BiLSTM)和条件随机场(CRF)的军事领域命名实体识别模型(BERT-BiLSTM-CRF)解决基于单CRF模型需要依赖大量人工特征选取工作,基于LSTM模型需要依靠庞大的语料库构建词向量的问题,提升了实体识别效果。本专利技术提出的多神经网络协作的军事领域命名实体识别方法,包含以下步骤:步骤A:获取公开的微博文本数据,形成原始数据集;步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。本专利技术中,步骤B包括:步骤B1:除通用的人员名称、时间、地名外,针对军事领域特殊的军衔和军职、军事机构、军事设施、军事事件、武器装备5种类别的实体给出定义:将表示用于军事目的的建筑、场地和设施标注为军事设施实体;将表示军事有关的院校、军事行政单位、政府机关、作战部队或组织标注为军事机构实体;将表示与军事领域相关的军事演习、武装冲突、武装袭击、政治事件标注为军事事件实体;枪械、火炮、飞行器、弹药、坦克、舰艇、导弹、生化武器、核武器标注为武器装备实体;步骤B2:结合专业知识和文献资料,提出考虑模糊边界的实体标注规则:规则1:英文字母,短横线,数字与武器装备相连,将英文字母,短横线,数字与武器装备整体标注为武器装备实体;规则2:军事机构与武器装备相连,若武器装备为军事机构独有,则分别标注为军事机构实体和武器装备实体;若武器装备不是军事机构独有,军事机构和武器装备的整体标注为武器装备实体;规则3:军事机构与军事机构相连,以最低的机构级别为准,将多个军事机构相连的整体标注为军事机构实体;规则4:军事机构或军事地名与军衔相连,将相连的整体标注为军衔和军职实体;规则5:军事地名/军事机构与军事设施相连,若军事设施为具有具体名称的军事设施,则分别标注为军事地名/军事机构实体和军事设施实体;若军事设施没有具体名称则将相连的整体标注为军事设施实体。本专利技术中,步骤C包括:步骤C1:对所述的原始数据集进行清洗,删除不含军事信息的数据,删除数据中的特殊符号;所述特殊符号包括:表情、颜文字;步骤C2:结合步骤B的考虑实体模糊边界的军事领域实体标注策略,及军事领域命名实体分类标准,针对步骤C1处理后的文本进行字级别的标注,形成军事领域命名实体语料集MilitaryCorpus。本专利技术中,步骤D包括:步骤D1:对军事语料进行句子级别的划分,根据文本序列中的每一个字xijk生成特征向量ck,基于Transformer的双向编码器将所述特征向量ck转换成带有字特征和位置特征的字向量Ek;步骤D2:将字向量序列输入双向长短时记忆神经网络提取出上下文特征并生成特征矩阵Pk;步骤D3:CRF层根据特征向量ck捕获相邻标签之间的依赖关系,并通过所述相邻标签之间的依赖关系确定整个句子优化的标签序列。其中,步骤D1中基于BERT的字向量表达层实现:对MilitaryCorpus语料集中语料sij=(xij1,xij2,...,xijn)的每一个字计算3个特征:字特征,句子特征,位置特征定义sij=(xij1,xij2,...,xijn)的字特征为为句子特征,位置特征为在字特征生成时,针对xijk,采用BERT词汇表确定其对应的字向量每一次的识别单元为一个句子,将句子特征设置为0,即对于有其中,表示第k个字的位置特征,即为k;基于BERT的字向量表示层输入为字特征,句子特征与位置特征的数值和其中,Ck∈C,C=(C1,C2,C3,...,Cn);所述C=(C1,C2,C3,...,Cn)经多层Transformer计算输出最终的特征向量E=(E1,E2,E3,...,En);每一个Transformer节点的输出矩阵都作为上一层所有Transformer节点的输入,然后使用BERT的计算机制进行计算得到字级别的特征向量序列E=(E1,E2,E3,...,En),作为BiLSTM神经网络层的输入。其中,步骤D2中基于双向长短时记忆神经网络层实现:基于BERT的字向量表示层E=(E1,E2,E3,...,En)作为本层的输入,在对应时间点的隐藏节点中做特征计算;前向LSTM隐藏层的输出序列为F=(F1,F2,F3,...,Fn),F1的输入为E1,从F2开始输入为后向LSTM隐藏层的输出序列为B=(B1,B2,B3,...,Bn),B1的输入为E1,从B2开始输入为对于Ek计算输出向量Pk,即最终,BiLSTM神经网络的输出是给定E=(E1,E2,E3,...,En),生成特征矩阵P∈Rpyz表示输入的句子sij中本文档来自技高网
...

【技术保护点】
1.一种多神经网络协作的军事领域命名实体识别方法,其特征在于,包含以下步骤:/n步骤A:获取公开的文本数据,形成原始数据集;/n步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;/n步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;/n步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。/n

【技术特征摘要】
1.一种多神经网络协作的军事领域命名实体识别方法,其特征在于,包含以下步骤:
步骤A:获取公开的文本数据,形成原始数据集;
步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;
步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;
步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。


2.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,所述文本数据来源于微博。


3.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤B包括:
步骤B1:除通用的人员名称、时间、地名外,针对军事领域特殊的军衔和军职、军事机构、军事设施、军事事件、武器装备5种类别的实体给出定义:将表示用于军事目的的建筑、场地和设施标注为军事设施实体;将表示军事有关的院校、军事行政单位、政府机关、作战部队或组织标注为军事机构实体;将表示与军事领域相关的军事演习、武装冲突、武装袭击、政治事件标注为军事事件实体;枪械、火炮、飞行器、弹药、坦克、舰艇、导弹、生化武器、核武器标注为武器装备实体;
步骤B2:结合专业知识和文献资料,提出考虑模糊边界的实体标注规则:
规则1:英文字母,短横线,数字与武器装备相连,将英文字母,短横线,数字与武器装备整体标注为武器装备实体;
规则2:军事机构与武器装备相连,若武器装备为军事机构独有,则分别标注为军事机构实体和武器装备实体;若武器装备不是军事机构独有,军事机构和武器装备的整体标注为武器装备实体;
规则3:军事机构与军事机构相连,以最低的机构级别为准,将多个军事机构相连的整体标注为军事机构实体;
规则4:军事机构或军事地名与军衔相连,将相连的整体标注为军衔和军职实体;
规则5:军事地名/军事机构与军事设施相连,若军事设施为具有具体名称的军事设施,则分别标注为军事地名/军事机构实体和军事设施实体;若军事设施没有具体名称则将相连的整体标注为军事设施实体。


4.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤C包括:
步骤C1:对所述的原始数据集进行清洗,删除不含军事信息的数据,删除数据中的特殊符号;所述特殊符号包括:表情、颜文字;
步骤C2:结合步骤B的考虑实体模糊边界的军事领域实体标注策略,及军事领域命名实体分类标准,针对步骤C1处理后的文本进行字级别的标注,形成军事领域命名实体语料集MilitaryCorpus。


5.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤D包括:
步骤D1:对军事语料进行句子级别的划分,根据文本序列中的每一个字xijk生成特征向量ck,基于Transformer的双向编码器将所述特征向量ck转换成带有字特征和位置特征的字向量Ek;
步骤D2:将字向量序列输入双向长短时记忆神经网络提取出上下文特征并生成特征矩阵Pk;
步骤D3:CRF层根据特征向量ck捕获相邻标签之间的依赖关系,并通过所述相邻标签之间的依赖关系确定整个句子优化的标签序列。


6.如权利要求5所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤D...

【专利技术属性】
技术研发人员:尹学振赵慧陈沁蕙李欣妍
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1