System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法技术_技高网

一种差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法技术

技术编号:41328425 阅读:4 留言:0更新日期:2024-05-13 15:06
本发明专利技术公开了一种差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法,包括以下步骤:首先获取已标注的小规模领域数据集L和大规模无标注领域数据集U,接着在小规模标注领域数据集L上训练九个差异化的分类器,然后在大规模无标注领域数据集U上进行差异化协同训练,并通过预测多数投票机制对九个初始分类器预测结果集成,获得伪标签数据集,提高了嵌套命名实体识别模型的鲁棒性。本发明专利技术中的嵌套命名实体识别模型,解决了由于训练样本不足导致基于深度学习的NNER模型表现欠佳的问题,使用了多个差异化分类器来避免歧义的错误,同时提出了多标签平衡样本选择策略对伪标签数据集进行均衡采样来避免NNER中样本不均衡问题和标签共生问题。

【技术实现步骤摘要】

本专利技术属于雷达及作战体系、深度学习,涉及一种差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法、识别系统、电子设备和存储介质。


技术介绍

1、随着现代化战场对电磁设备的广泛应用以及情报采集手段的增强,产生了越来越多电磁辐射源及武器装备相关的情报数据。雷达作为重要的电磁辐射装备,与许多武器系统密不可分。知识图谱(knowledge graph)作为一种大数据时代下的知识表示方法应运而生,它是一种以符号形式描述真实世界中的实体、概念及其关联关系的语义网络,构建电磁辐射源知识图谱将有利于下游的语义搜索、知识推理、智能问答等任务。从电磁辐射源情报文本中抽取雷达及武器装备实体知识,是构建电磁辐射源知识图谱的核心基础工作之一,高效地从情报文本中自动化抽取实体信息非常重要。除了简单的雷达名、功能以及装备平台等实体之外,雷达及作战体系领域还广泛存在着多层嵌套现象。嵌套命名实体识别任务应运而生。嵌套命名实体识别(nested named entity recognition,nner)能够自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体信息及实体内部之间的语义关系信息,是命名实体识别(named entity recognition,ner)的一个子任务。

2、为了解决嵌套命名实体识别问题,目前学术界主要采用两类方法:1.早期的nner任务主要结合基于规则和基于统计机器学习方法展开研究。2.近年来基于深度学习方法渐渐成为nner研究的一个热点。前者基于规则和基于统计机器学习的方法通常能达到较高准确率,可以针对特定领域设计特征和制定规则,但是存在可移植性差、维护成本高等问题;后者基于深度学习的方法一般需要大规模的标注数据集进行模型训练,因此很难直接应用到一些小样本较为普遍的领域,如国防军事领域和医疗领域等。这是因为一方面在缺乏或缺少标注数据时,监督学习模型难以充分学习隐藏的特征表示从而表现欠佳;另一方面在无标签领域数据和辅助数据不足的情况下,许多现有的nner技术将难以直接被应用,例如远程监督和领域特定预训练等方法。

3、在雷达及作战体系领域,由于辐射源情报数据的敏感性,真实场景中无法访问到足够多的无标签领域数据,查阅文献资料发现,雷达及作战体系领域的公开标注数据集匮乏,知识库或者领域词典等辅助数据鲜见,面向雷达及作战体系领域的nner面临着低资源的困境,导致主流的基于深度学习的nner模型容易出现歧义性错误。研究低资源场景下面向雷达及作战体系领域的nner任务,能够为进一步提高情报文本的自动化处理水平以及电磁辐射源知识图谱构建工作奠定了技术基础,进而在专家知识不足的作战场景中辅助指战员进行敌方编队识别、作战行动及威胁判断和战争态势分析等工作。


技术实现思路

1、为了解决现有技术存在的不足,本专利技术的目的是提供一种基于差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法,所述嵌套命名实体识别是指识别实体内部更小粒度和实体外部更大粒度的具有特定语义类型的命名实体。

2、本专利技术所述识别方法包括以下步骤:

3、步骤a:获取已标注的小规模领域数据集其中ai表示文本xi中包含的实体数目,和分别表示文本xi的第k个实体的起始位置,终止位置和实体类别标签,m为小规模领域数据集中的样本数目。所述的起始位置、终止位置分别指的是实体第一个字和最后一个字所在文本序列的位置下标。所述的小规模是指在本专利技术所研究的雷达及作战体系领域下的中文嵌套命名实体识别任务中,标签数据样本数目m较小(约为1000条数据),导致基于深度学习的嵌套命名实体识别模型表现不佳的数据场景;所述小规模领域数据集包括训练集、测试集和验证集,训练集、测试集和验证集的比例要求一般为6:2:2。

4、步骤b:获取大规模无标注领域数据集其中xi表示文字样本(即文本),n为大规模无标注领域数据集中的样本数目。所述的大规模是指为了进一步丰富领域数据,弥补数据集l中数据不足的问题,本专利技术基于领域相关、知识丰富先进、内容准确可靠、数据量大的原则来获取的领域相关数据源,约为13000条。

5、步骤c:在已标注训练数据集l上训练基学习器,得到初始分类器。选用基于序列标注方法的bert-crf、基于跨度表示方法的bert-span和基于“握手标注”标注框架的bert-tplinker-nner三个网络结构差异显著的框架模型进行差异化协同训练,获得9个分类器,如表1所示。此处的差异化协同训练包括模型框架差异化、超参数差异化和对抗学习差异化。通过多个差异化基学习器,避免单个基学习器由于单一视图导致的歧义性错误。在差异化基学习器hij上分别输入训练集,进行训练得到初始分类器mij,其中i∈1,2,3且j∈1,2,3,hij表示第i个模型框架的第j个差异化基学习器,mij表示第i个模型框架的第j个差异化分类器,具体参数设置见下表1。在已标注训练数据集l上展开训练来学习特征映射,通过五折交叉验证和概率平均融合来综合评估各个初始分类器的有效性。通过不断训练并调整相应模型的超参数,直至每个初始分类器效果达到最佳,得到初步预训练好的九个分类器0表示第一轮最优分类器。本专利技术所述的五折交叉验证是在训练时,将数据平均分成5等份,每一次训练将其中一份作为测试集,其他四份作为训练集对模型进行训练,共进行5次训练。概率平均融合是将分类器在五次训练中测试集上的结果进行整合取均值,得到分类器的平均预测结果。综合评估是根据f1值评估模型效果,f1越大模型效果越好。f1值兼顾了模型的准确率(p)和召回率(r),是两者的加权调和平均。具体公式:

6、

7、

8、

9、其中tp表示能被模型正确识别的实体数目,mp表示模型识别出的实体总数,tr表示样本中所有实体总数。

10、表1初始分类器参数设置表

11、

12、步骤d:更新伪标签数据集。所述伪标签是指由监督学习网络在无标签数据上标记的标签。对于任意给定无标注文本x∈u,每次在用于构建分类器的三种框架中,选择两种框架的分类器对x进行预测,基于预测结果,更新第三种框架分类器的伪标签数据集。该过程不断迭代,直到所有的框架对遍历完毕。具体过程以选择bert-crf和bert-span框架为例。选择使用bert-crf和bert-span模型框架的两组分类器和对x进行预测(共6个分类器),0表示第一轮生成的最优分类器,来获得候选伪标签实体列表其中i∈1,2且j∈1,2,3,表示文本xij第k个实体的起始位置,表示文本xij第k个实体的终止位置,表示文本xij第k个实体类型标签,aij表示分类器mij预测出的无标注文本x中的实体总数。因此,对同一文本x∈u的预测结果有y11、y12、y13、y21、y22和y23。那么基于多数投票机制(pmv,prediction majorityvoting)对每个候选伪标签实体(s,e,type)∈y11∪y12∪y13∪y21∪y22∪y23进行一致性评估,一致性评估分数的计算本文档来自技高网...

【技术保护点】

1.一种差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,所述步骤A为雷达及作战体系领域标签数据集构建阶段,进一步包括:

3.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,所述步骤B为雷达及作战体系领域无标签数据集构建阶段,进一步包括:

4.根据权利要求3所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,在步骤B4中,所述的单程数据自动选择算法进一步包括:

5.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,在步骤D中,基于多数投票机制对每个候选伪标签实体进行一致性评估,所述一致性评估是基于一致性原则从所有候选伪标签实体中筛选出高置信度的伪标签实体,进一步包括:

6.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,步骤E进一步包括:

7.如权利要求1-6之任一项所述的雷达及作战体系领域嵌套命名实体识别方法在小规模有标注的情报数据集上自动获取雷达及作战体系领域的命名实体,进行情报文本的自动化处理、电磁辐射源知识图谱的构建中的应用。

8.一种实现如权利要求1-6之任一项所述的雷达及作战体系领域嵌套命名实体识别方法的嵌套命名实体识别系统,其特征在于,包括初始分类器调优模块和差异化多模型协同训练模块;

9.一种电子设备,其特征在于,包括:处理器和存储器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1-6之任一项所述的嵌套命名实体识别方法。

...

【技术特征摘要】

1.一种差异化多模型协同训练的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,所述步骤a为雷达及作战体系领域标签数据集构建阶段,进一步包括:

3.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,所述步骤b为雷达及作战体系领域无标签数据集构建阶段,进一步包括:

4.根据权利要求3所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,在步骤b4中,所述的单程数据自动选择算法进一步包括:

5.根据权利要求1所述的雷达及作战体系领域嵌套命名实体识别方法,其特征在于,在步骤d中,基于多数投票机制对每个候选伪标签实体进行一致性评估,所述一致性评估是基于一致性原则从所有候选伪标签实体中筛选出高置信度...

【专利技术属性】
技术研发人员:杨志豪华丽萍兰于权赵慧林曦
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1