一种军事领域标注数据修正与事件检测方法技术

技术编号:39734795 阅读:12 留言:0更新日期:2023-12-17 23:37
本发明专利技术涉及一种军事领域标注数据修正与事件检测方法,属于信息抽取技术领域

【技术实现步骤摘要】
一种军事领域标注数据修正与事件检测方法


[0001]本专利技术属于信息抽取
,具体涉及一种军事领域标注数据修正与事件检测方法


技术介绍

[0002]事件抽取旨在将非结构化文本中的事件信息进行结构化,是自然语言处理的重要研究领域

事件检测作为事件抽取的关键子任务之一,旨在从给定文本中识别事件触发词
(trigger)
位置并将其分类到正确的事件类型,触发词指的是标记事件出现的核心词语或短语,事件类型为数据集中预先定义的类型

[0003]事件检测在网络舆情监控

突发事件告警

情报收集领域有着重要应用,可以帮助决策者从大量的低价值情报中自动获取事件信息,减轻情报收集的工作量

[0004]对于通用领域事件,目前已有
ACE2005
等成熟开源数据集,其推动了通用领域事件检测和事件抽取的研究,然而对于军事领域事件,数据标注需要标注人员具有专业的军事领域知识,并且由于军事领域的特殊性,目前国内外缺乏权威高质且对外开放的用于事件抽取的军事数据集资源,军事文本数据集资源非常匮乏

[0005]近年来,虽然基于深度神经网络的模型在事件检测问题上取得了良好的效果,但同样受限于深度学习方法对训练数据集的高质量要求,在数据集存在样本分布不均衡

数据标注质量欠佳

对抗数据污染等问题时,模型有效性往往难以得到保证,缺乏鲁棒性
r/>[0006]针对上述问题,本专利技术提出一种高鲁棒性场景下军事领域标注数据修正与事件检测方法,在基于跨度
(span

based)
的事件检测模型基础上,使用数据清洗策略

分层学习率策略以及模型融合策略对基于跨度的抽取范式进行改进,旨在促进军事领域事件检测模型鲁棒性的研究,支撑领域事件抽取相关技术的落地,并推动相关领域人工智能应用的发展


技术实现思路

[0007](

)
要解决的技术问题
[0008]本专利技术要解决的技术问题是如何提供一种军事领域标注数据修正与事件检测方法,以解决数据标注质量欠佳,存在严重的数据污染,需要减少污染数据或有害样本对于模型学习过程的影响

数据集中各个类别的数据分布极不平衡,需要增强模型针对少样本类别的识别能力的问题

[0009](

)
技术方案
[0010]为了解决上述技术问题,本专利技术提出一种军事领域标注数据修正与事件检测方法,该方法包括如下步骤:
[0011]步骤一:数据清洗
[0012]采用一种模型超参数搜素方法
——
网格搜索
(Grid

Search)
,基于原始的数据集,使用不同的超参数同时训练多个不同的事件检测模型,然后使用训练后的模型对训练集和验证集进行预测,对于置信度得分大于某一阈值的样本,将原始标注结果修改为模型预测
结果;
[0013]步骤二:任务抽象
[0014]将事件检测任务转化为命名实体识别
(NER)
任务,将事件类型看作
NER
任务中的实体类型,将触发词看作
NER
任务中需要抽取的实体;具体地,采用“编码

解码”策略,使用开源的预训练模型对事件文本进行编码,并使用一种全局指针网络
——Global Pointer
模型进行事件触发词抽取和事件分类;
[0015]步骤三:模型训练
[0016]采用分层学习率策略来进行模型的训练,在使用样本在对下游任务进行微调时,我们设置预训练模型第一层的学习率保持在
2*e
‑5,最后一层学习率保持在
1*e
‑4,中间每层学习率保持依次递增,而对于下游的解码网络的学习率设置为
1*e
‑3,从而使得预训练模型能更好地适应下游任务的训练;
[0017]步骤四:模型集成
[0018]采用网格搜索方法
(Grid

Search)
,使用不同的超参数训练多个不同的事件检测模型,选其中表现最好的模型作为主模型,该模型的输出作为候选结果之一,称之为主模型输出;随后使用其余模型对主模型输出进行修正

[0019](

)
有益效果
[0020]本专利技术提出一种军事领域标注数据修正与事件检测方法,本专利技术公开一种高鲁棒性场景下军事领域标注数据修正与事件检测方法,主要优势体现在以下方面:
[0021](1)
设计了一种基于触发词置信度的数据修正方法,使用原始数据集训练模型,并对原始标注数据进行预测,对于预测得分
(
置信度
)
大于一定阈值的样本,将原始数据集的标注结果修改为模型预测结果,从而修正数据集中的错误标注数据和污染数据,提高训练集的质量

[0022](2)
设计了一种高鲁棒性的事件检测模型,在传统基于跨度的事件检测模型基础上,在模型训练时引入了分层学习率策略,为靠近下游任务的模型层参数设置更大的学习率,提高预训练模型对于下游任务的适配能力;在模型推理时采用基于投票修正的模型融合方法,通过模型集成的方式提升少样本类别事件的召回率和准确率,融合多个模型的投票结果确定最终预测结果,从而提升模型的鲁棒性

附图说明
[0023]图1为本专利技术的方法总体框架;
[0024]图2为标签污染数据示例;
[0025]图3为基于置信度的数据清洗流程;
[0026]图4为基于跨度的事件检测模型结构图;
[0027]图5为分层学习率策略图

具体实施方式
[0028]为使本专利技术的目的

内容和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述

[0029]本专利技术属于信息抽取
,特别涉及一种高鲁棒性场景下军事领域标注数据
修正与事件检测方法

[0030]本专利技术公开一种高鲁棒性场景下军事领域标注数据修正与事件检测方法

通过机器学习

深度学习等技术,使得模型在样本分布不均衡

数据标注质量欠佳

存在数据污染时仍具有良好的性能

本专利技术需要解决的问题主要有以下两方面:
[0031](1)
数据标注质量欠佳,存在严重的数据污染,需要减少污染数据或有害样本对于模型学习过程的影响

[0032](2)
数据集中各个类别的数据分布极不平衡,需要增强模型针对少样本类别的识别能力...

【技术保护点】

【技术特征摘要】
1.
一种军事领域标注数据修正与事件检测方法,其特征在于,该方法包括如下步骤:步骤一:数据清洗采用一种模型超参数搜素方法
——
网格搜索
(Grid

Search)
,基于原始的数据集,使用不同的超参数同时训练多个不同的事件检测模型,然后使用训练后的模型对训练集和验证集进行预测,对于置信度得分大于某一阈值的样本,将原始标注结果修改为模型预测结果;步骤二:任务抽象将事件检测任务转化为命名实体识别
(NER)
任务,将事件类型看作
NER
任务中的实体类型,将触发词看作
NER
任务中需要抽取的实体;具体地,采用“编码

解码”策略,使用开源的预训练模型对事件文本进行编码,并使用一种全局指针网络
——Global Pointer
模型进行事件触发词抽取和事件分类;步骤三:模型训练采用分层学习率策略来进行模型的训练,在使用样本在对下游任务进行微调时,我们设置预训练模型第一层的学习率保持在
2*e
‑5,最后一层学习率保持在
1*e
‑4,中间每层学习率保持依次递增,而对于下游的解码网络的学习率设置为
1*e
‑3,从而使得预训练模型能更好地适应下游任务的训练;步骤四:模型集成采用网格搜索方法
(Grid

Search)
,使用不同的超参数训练多个不同的事件检测模型,选其中表现最好的模型作为主模型,该模型的输出作为候选结果之一,称之为主模型输出;随后使用其余模型对主模型输出进行修正
。2.
如权利要求1所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤一具体包括:首先根据事件论元关系对原始数据进行初步的数据清洗,然后根据触发词置信度对数据进行再次清洗,接着基于清洗后的数据采用
Grid

Search
策略训练多个模型,最后依次遍历训练集和验证集的数据,使用训练的模型对数据进行预测,当计算得到的置信度大于设定的阈值时,则认为原始数据存在污染,使用模型预测结果作为数据标签,否则保留原始标注结果,循环遍历后完成所有数据的修正
。3.
如权利要求2所述的军事领域标注数据修正与事件检测方法,其特征在于,触发词置信度得分计算公式如下:其中,
N
为训练模型的个数;
<i

j>
为文本中触发词所在位置的跨度,
i

j
分别表示触发词的起始位置与结束位置;为第
m
个模型预测
<i

j>
对应的词语为触发词的概率得分
。4.
如权利要求2或3所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤二中,在每个文本的结尾添加特殊标记
[N]
作为“非事件”事件类型样本的触发词,从而减小“非事件”事件类型与其他事件类型之间的损失不平衡性
。5.
如权利要求4所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤二中,编码阶段包括:使用预训练模型作为编码器,对输入的文本进行表示,对于每个输入的
token
得到其相
应的上下文表示,公式如下:
h1,
h2,
...

h
n

PLM(w1,
w2,
...

w
n
)
其中,
PLM(
·
)
为采用的预训练模型;
w
i
为输入文本的第
i

token

h
i
为第
i<...

【专利技术属性】
技术研发人员:宋颖毅张杭杨雨婷王又辰田宗凯范昕煜栾真邹烨葛志杜田沣
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1