【技术实现步骤摘要】
一种多神经网络协作的军事领域命名实体识别方法
本专利技术属于军事
,涉及一种多神经网络协作的命名实体识别方法,特别针对军事领域实体的命名实体识别方法。
技术介绍
命名实体识别是进行智能问答、知识图谱等自然语言处理研究的基础工作,一直受到研究者的关注。早期的命名实体识别研究大多采用基于规则和基于字典的方法,依赖于大量手工设定的识别规则,很难对语料全面覆盖,并且规则的制定往往依赖于数据集,当数据集发生变化即需要更新规则。基于统计学习的实体识别方法避免了大量规则的制定,其将命名实体识别问题转化为序列化标注问题,但是,基于统计学习的命名实体识别方法依赖于预先定义的特征,特征工程不仅代价高而且与特定领域相关,导致领域知识提高了模型的识别有效性的同时牺牲了模型的泛化能力和迁移能力。计算能力的提升以及词的分布式表示技术的支持,使得基于深度神经网络的命名实体识别任务不再依赖特征工程,并取得了显著的研究进展。目前已有研究证明在中文命名实体识别中应用字向量表征的识别准确度要优于应用词向量表征的方式;已有研究者使用卷积神经网络、BiLSTM、CRF等进行模型网络结构的设计,并在生物医药等专有领域的实体识别中取得较好的识别效果;针对军事领域,有研究者针对作战文书、想定文书等规范的文本进行实体识别工作,取得了积极、客观的研究成果。然而,电子病历、军事文本、作战文书等规范化文本中实体分布相对密集、具有一定的规律且实体边界较为清晰,而微博、Tweets等社交媒体数据中实体分布稀疏,实体表达不规范,实体边界常常不清晰,因而如何面向微博 ...
【技术保护点】
1.一种多神经网络协作的军事领域命名实体识别方法,其特征在于,包含以下步骤:/n步骤A:获取公开的文本数据,形成原始数据集;/n步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;/n步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;/n步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。/n
【技术特征摘要】
1.一种多神经网络协作的军事领域命名实体识别方法,其特征在于,包含以下步骤:
步骤A:获取公开的文本数据,形成原始数据集;
步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;
步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;
步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。
2.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,所述文本数据来源于微博。
3.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤B包括:
步骤B1:除通用的人员名称、时间、地名外,针对军事领域特殊的军衔和军职、军事机构、军事设施、军事事件、武器装备5种类别的实体给出定义:将表示用于军事目的的建筑、场地和设施标注为军事设施实体;将表示军事有关的院校、军事行政单位、政府机关、作战部队或组织标注为军事机构实体;将表示与军事领域相关的军事演习、武装冲突、武装袭击、政治事件标注为军事事件实体;枪械、火炮、飞行器、弹药、坦克、舰艇、导弹、生化武器、核武器标注为武器装备实体;
步骤B2:结合专业知识和文献资料,提出考虑模糊边界的实体标注规则:
规则1:英文字母,短横线,数字与武器装备相连,将英文字母,短横线,数字与武器装备整体标注为武器装备实体;
规则2:军事机构与武器装备相连,若武器装备为军事机构独有,则分别标注为军事机构实体和武器装备实体;若武器装备不是军事机构独有,军事机构和武器装备的整体标注为武器装备实体;
规则3:军事机构与军事机构相连,以最低的机构级别为准,将多个军事机构相连的整体标注为军事机构实体;
规则4:军事机构或军事地名与军衔相连,将相连的整体标注为军衔和军职实体;
规则5:军事地名/军事机构与军事设施相连,若军事设施为具有具体名称的军事设施,则分别标注为军事地名/军事机构实体和军事设施实体;若军事设施没有具体名称则将相连的整体标注为军事设施实体。
4.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤C包括:
步骤C1:对所述的原始数据集进行清洗,删除不含军事信息的数据,删除数据中的特殊符号;所述特殊符号包括:表情、颜文字;
步骤C2:结合步骤B的考虑实体模糊边界的军事领域实体标注策略,及军事领域命名实体分类标准,针对步骤C1处理后的文本进行字级别的标注,形成军事领域命名实体语料集MilitaryCorpus。
5.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤D包括:
步骤D1:对军事语料进行句子级别的划分,根据文本序列中的每一个字xijk生成特征向量ck,基于Transformer的双向编码器将所述特征向量ck转换成带有字特征和位置特征的字向量Ek;
步骤D2:将字向量序列输入双向长短时记忆神经网络提取出上下文特征并生成特征矩阵Pk;
步骤D3:CRF层根据特征向量ck捕获相邻标签之间的依赖关系,并通过所述相邻标签之间的依赖关系确定整个句子优化的标签序列。
6.如权利要求5所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤D...
【专利技术属性】
技术研发人员:尹学振,赵慧,陈沁蕙,李欣妍,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。