一种基于多任务联合学习的事件检测方法技术

技术编号:38575970 阅读:12 留言:0更新日期:2023-08-26 23:23
本发明专利技术公开了一种基于多任务联合学习的事件检测方法,涉及到自然语言处理中信息抽取任务中的事件检测技术领域,包括以下步骤:S1:样本生成,S2:基于深度预训练模型的多任务联合学习。本发明专利技术把事件检测任务拆分为事件类型判断和触发词识别两个子任务,然后对两个子任务进行联合建模学习,模型的输入包含了事件类型和文本内容,通过注意力机制可以更好地学习标签与文本之间的关系,同时利用任务之间的相关性进一步提升模型的学习效果。关性进一步提升模型的学习效果。

【技术实现步骤摘要】
一种基于多任务联合学习的事件检测方法


[0001]本专利技术涉及自然语言处理中信息抽取任务中的事件检测
,特别涉及一种基于多任务联合学习的事件检测方法。

技术介绍

[0002]事件抽取的目标是自动地从从非结构化文本中识别所出现的事件的触发词、事件类型、事件论元等,是自然语言处理的重要研究领域。事件检测作为事件抽取的子任务之一,旨在从给定文本中识别事件触发词并将其分类到正确的事件类型,触发词指的是标记事件出现的核心词语或短语,事件类型为任务中预定义好的需要检测的事件的类型。
[0003]目前主流的事件检测方法有以下几种方案:
[0004]一、基于词典或规则的方法
[0005]基于词典或规则的方法针对每种事件构造触发词词典或设计触发词检测模板,然后通过匹配来识别触发词和事件类型。
[0006]二、基于深度学习的方法
[0007]神经网络模型能够自动地从原始文本中学习与触发词相关的高层次特征表示,因此将原始文本作为输入,使用LSTM、Transformer等深度学习模型自动地学习文本特征,然后进行字符级别的分类实现触发词识别,并进一步实现事件类型判断。
[0008]三、多特征融合的方法
[0009]该方法通常会把句法依存特征、词性特征、词向量特征等多种特征进行融合,然后输入LSTM、Transformer、GCN(Graph Convolutional Network,图卷积神经网络)等网络进行学习,从而实现触发词识别和分类。句法依存关系可以表示词与词之间的依赖关系,该方法融合了词法、句法等特征,可以更好地定位与触发词最相关的信息,从而实现更好地识别效果。
[0010]基于词典或规则的方法通常能够获得较高的精确率,但其召回率较低,同时过于依赖规则的有效性,通常泛化性很差。
[0011]基于深度学习的方法无需人工构建特征,但是由于输入的是全部文本,而文本中多数词对于触发词和事件类型的判断是无关的噪声信息,可能会影响事件检测任务的效果。
[0012]多特征融合的方法需要使用词法分析、句法分析等工具,但是现有的这些分析工具存在一定比例的解析错误,仍然会造成一部分噪声信息的保留。并且该方法实现上比较困难。
[0013]因此,提出一种基于多任务联合学习的事件检测方法来解决上述问题很有必要。

技术实现思路

[0014]本专利技术的目的在于提供一种基于多任务联合学习的事件检测方法,以解决上述
技术介绍
中提出的问题。
[0015]为实现上述目的,本专利技术提供如下技术方案:一种基于多任务联合学习的事件检测方法,包括以下步骤:
[0016]S1:样本生成,如某业务场景预定义的事件类型为Label=[“受伤”,“判刑”,“盗窃”],对于文本“被告人袁某用拳头将被害人郭某面部打伤”,其中包含的触发词为“打伤”,事件类型为“受伤”,把事件类型与正文拼接,然后分别标注触发词和事件类型,触发词识别作为序列标注任务使用BIO标注模式,“B”表示触发词的开始,“I”表示触发词的中间或者结尾,“O”表示不属于触发词;事件类型判断为二分类任务,“1”表示文本中包含该事件类型,“0”表示文本中不包含该事件类型;
[0017]S2:基于深度预训练模型的多任务联合学习,对触发词识别和事件类型判断联合建模,两个子任务共享神经网络隐层参数,然后针对不同任务构建各自的分类器完成各自任务目标,详细的模型计算步骤如下:
[0018]a.把事件类型l
i
和文本内容text拼接,并在首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,x
n
,[SEP]];
[0019]b.把序列X输入到BERT模型,得到表示向量E=[e
[CLS],e1,e2,e3,...,e
n
,e
[SEP]];
[0020]c1.触发词识别
[0021](1).把文本中每个字符的表示向量e
n
输入全连接神经网络,并经过softmax层后输出,得到该字符属于“BIO”中每种类型的概率P=[p
B
,p
I
,p
O
];
[0022](2).计算每个字符属于每种类型的概率P与真实的触发词标签之间的交叉熵损失loss1;
[0023]c2.事件类型判断
[0024](1).取E中“[CLS]”位置的向量e
[CLS],把e
[CLS]输入全连接神经网络,并经过softmax层后输出,得到事件类型概率P=[p1,p2],p1表示该文本包含事件类型l
i
的概率,p2表示该文本不包含事件类型l
i
的概率;
[0025](2).计算文本预测出的事件类型概率P与真实的事件类型之间的交叉熵损失loss2;
[0026]d.对loss1和loss2进行加权求和得到loss,然后对loss进行反向传播,通过梯度下降法更新模型参数。
[0027]优选的,所述S1中一条文本会生成三条标注数据,标注数据中text由事件类型和文本内容拼接而成,“[SEP]”为两者之间的分隔符,trigger_tag和event_type_tag分别表示触发词和事件类型的标注结果,由于该文本中包含的事件类型为“受伤”,触发词为“打伤”,因此当拼接的事件类型为“受伤”时,event_type_tag为1,“打伤”在拼接后的文本中的起始位置分别为20和21,因此trigger_tag中第20的位置为“B”,第21的位置为“I”,其它所有位置都为“O”。
[0028]优选的,当拼接的事件类型为“判刑”和“诈骗”时,由于文本中不包含这两种事件类型,因此event_type_tag均为0,trigger_tag中所有位置也都为“O”。
[0029]本专利技术的技术效果和优点:
[0030]1、本专利技术把事件检测任务拆分为事件类型判断和触发词识别两个子任务,然后对两个子任务进行联合建模学习,模型的输入包含了事件类型和文本内容,通过注意力机制可以更好地学习标签与文本之间的关系,同时利用任务之间的相关性进一步提升模型的学
习效果;
[0031]2、本专利技术把事件类型和文本内容拼接后作为模型的输入,然后分别做限定事件类型下的触发词识别和事件类型判断,假设预设的事件类型数量为n,把每种事件类型分别与文本内容拼接,这样每条数据会生成n条样本,既避免了在做模型推理时由于不知道文本的事件类型导致模型的输入与训练阶段模型的输入不一致的问题,又扩充了样本数量,可以让模型得到更充分的学习;
[0032]3、对于每条由事件类型和文本内容拼接形成的样本,只进行当前事件类型下的触发词的识别和事件类型判断,避免了当一个文本中包含多个事件类型且每个事件类型对应不同的触发词的情况下,无法区分触发词和事件类型的对应关系的问题。
附图说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务联合学习的事件检测方法,其特征在于:包括以下步骤:S1:样本生成,如某业务场景预定义的事件类型为Label=[“受伤”,“判刑”,“盗窃”],对于文本“被告人袁某用拳头将被害人郭某面部打伤”,其中包含的触发词为“打伤”,事件类型为“受伤”,把事件类型与正文拼接,然后分别标注触发词和事件类型,触发词识别作为序列标注任务使用BIO标注模式,“B”表示触发词的开始,“I”表示触发词的中间或者结尾,“O”表示不属于触发词;事件类型判断为二分类任务,“1”表示文本中包含该事件类型,“0”表示文本中不包含该事件类型;S2:基于深度预训练模型的多任务联合学习,对触发词识别和事件类型判断联合建模,两个子任务共享神经网络隐层参数,然后针对不同任务构建各自的分类器完成各自任务目标,详细的模型计算步骤如下:a.把事件类型l
i
和文本内容text拼接,并在首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,x
n
,[SEP]];b.把序列X输入到BERT模型,得到表示向量E=[e
[CLS]
,e1,e2,e3,...,e
n
,e
[SEP]
];c1.触发词识别(1).把文本中每个字符的表示向量e
n
输入全连接神经网络,并经过softmax层后输出,得到该字符属于“BIO”中每种类型的概率P=[p
B
,p
I
,p
O
];(2)...

【专利技术属性】
技术研发人员:袁丁程龙龙崔丙剑田野曹琉
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1