多语言提示学习的小样本事件检测模型训练方法及装置制造方法及图纸

技术编号:39165195 阅读:13 留言:0更新日期:2023-10-23 15:04
本发明专利技术实施例公开了一种多语言提示学习的小样本事件检测模型训练方法及装置,该方法包括:获取训练数据集,对任一输入实例应用多语言提示模块获取预测的触发器,获取第一损失;生成对比实例和双语实例,并根据输入实例和双语实例应用多语言提示模块进行多语言提示,获取事件嵌入的联合事件表征;应用两级层次化原型网络对联合事件表征进行事件标签预测,计算第二损失;组建实例四元组,并应用四元对比学习模块进行对比学习,获取第三损失;对各损失进行加权求和得到总损失,并基于训练数据集和总损失进行循环优化学习,得到小样本事件检测模型。通过上述方式,本发明专利技术实施例能够消除多义词混淆和同义词混淆,有效提高小样本事件检测的准确度。事件检测的准确度。事件检测的准确度。

【技术实现步骤摘要】
多语言提示学习的小样本事件检测模型训练方法及装置


[0001]本专利技术实施例涉及小样本事件检测
,具体涉及一种多语言提示学习的小样本事件检测模型训练方法及装置。

技术介绍

[0002]随着信息提取技术的快速发展,事件检测(Event Detection,ED)作为这类技术的基础部分得到了越来越多的关注,它主要是通过从文本中定位关键触发器,然后为文本分配一个正确的事件标签。现有的事件检测方法主要采用神经网络从单语文本中获取语义信息,如卷积神经网络(CNN)、递归神经网络(RNN)、图神经网络(GNN)等。然而,它们在事件检测中仍然存在语义混淆,这是由仅提供有限单语线索的混淆触发器引起的。这种混淆在小样本事件检测(FSED)中会加剧,因为在小样本事件检测中标记的文本和语义是稀疏的。此外,事件标签的触发器分布不平衡使得捕获的触发器趋于单一,加剧了语义混淆。
[0003]一般的小样本事件检测模型将小样本事件检测扩展到一组由支持集和查询集组成的元任务中。通过训练大量已标记的元任务并从中提取元知识,这些模型可以在新的元任务上获得良好的小样本事件检测性能,但在实际数据稀缺的应用场景下注释大量的元任务仍然是劳动密集型的。且现有的小样本事件检测方法对语义混淆是盲目的,无法处理由令人困惑的触发器引起的预测陷阱,削弱了小样本事件检测的性能。
[0004]语义混淆主要归因于多义词混淆和同义词混淆。前者是由一个具有不同含义的触发器引起的。为了解决这种混淆,可以采用门控的多语言注意机制来提取多语言数据中的补充信息,但是这种方法不能很好地应用于小样本场景。因为在小样本场景中,有限的实例可能无法覆盖足够的触发器语义。后者表明,对于小样本事件检测模型来说,由稀缺触发器触发的实例比那些具有相同语义的常见触发器的实例更难区分。为了缓解这种混淆,可以通过富集知识蒸馏和知识注入提示从不同的触发词中来获取语义。然而,这类方法主要使用外部知识,忽略了可以捕获混淆的触发器与其标签之间联系的上下文中的语义线索。

技术实现思路

[0005]鉴于上述问题,本专利技术实施例提供了一种多语言提示学习的小样本事件检测模型训练方法及装置,克服了上述问题或者至少部分地解决了上述问题。
[0006]根据本专利技术实施例的一个方面,提供了一种多语言提示学习的小样本事件检测模型训练方法,所述方法包括:获取训练数据集,并对训练数据集中任一个实例作为输入实例应用小样本事件检测模型中的多语言提示模块获取预测的触发器,并获取第一损失;生成与所述输入实例对应的对比实例和双语实例,并根据所述输入实例和所述双语实例应用所述多语言提示模块进行多语言提示,获取事件嵌入的联合事件表征;应用所述小样本事件检测模型中的两级层次化原型网络对所述联合事件表征进行事件标签预测,并计算所述两级层次化原型网络的第二损失;根据所述输入实例、所述对比实例以及所述联合事件表征组建实例四元组,并根据所述实例四元组应用所述小样本事件检测模型中的四元对比学习
模块进行对比学习,获取第三损失;对所述第一损失、所述第二损失以及所述第三损失进行加权求和得到所述小样本事件检测模型的总损失,并基于所述训练数据集和所述总损失对所述多语言提示模块和所述两级层次化原型网络进行循环优化学习,得到所述小样本事件检测模型。
[0007]在一种可选的方式中,所述获取训练数据集,包括:给定非结构化的事件文本x和一个事件标签空间Y,为事件文本x分配一个事件标签y∈Y,事件检测的过程为x

(x,t)

y,实例被表示为元组(x,t^,y^),其中,t^,y^分别是真实触发器标签和真实事件标签;从原始数据集中采样包括N个事件标签的训练集和开发集,每个所述事件标签包括k个实例,其余实例构成测试集,得到包括所述训练集、所述开发集以及所述测试集的训练数据集。
[0008]在一种可选的方式中,所述对训练数据集中任一个实例作为输入实例应用小样本事件检测模型中的多语言提示模块获取预测的触发器,并获取第一损失函数,包括:对训练数据集中任一个实例作为输入实例连接到多语言提示模块中的提示模板中,得到修改后的提示;将与所述输入实例对应的提示输入所述多语言提示模块中的跨语言编码器,预测触发器的概率分布;根据预测的触发器的概率分布计算第一损失。
[0009]在一种可选的方式中,所述双语实例包括中文实例和西班牙实例,所述根据所述输入实例和所述双语实例应用所述多语言提示模块进行多语言提示,获取事件嵌入的联合事件表征,包括:根据所述输入实例应用所述多语言提示模块中的英语提示模板基于所述输入实例中的真实触发器标签获取第一语言提示;根据所述中文实例和所述西班牙实例分别应用所述多语言提示模块中的中文提示模板和西班牙提示模板基于所述真实触发器标签获取第二语言提示和第三语言提示;将所述第一语言提示、所述第二语言提示以及所述第三语言提示分别输入所述多语言提示模块中的跨语言编码器,生成对应的第一事件嵌入、第二事件嵌入以及第三事件嵌入;计算所述第一事件嵌入、所述第二事件嵌入以及所述第三事件嵌入的平均值,得到事件嵌入的联合事件表征。
[0010]在一种可选的方式中,所述小样本事件检测模型中的两级层次化原型网络包括父级原型网络和子级原型网络,所述应用所述小样本事件检测模型中的两级层次化原型网络对所述联合事件表征进行事件标签预测,并所述两级层次化原型网络的第二损失,包括:分别计算所述联合事件表征被分类到所述父级原型网络中各父标签的父标签概率分布以及被分类到所述子级原型网络中各子标签的子标签概率分布;基于所述父标签概率分布计算父级原型网络的损失,基于所述子标签概率分布计算子级原型网络的损失;对父级原型网络的损失和子级原型网络的损失进行加权求和,得到两级层次化原型网络的第二损失。
[0011]在一种可选的方式中,所述分别计算所述联合事件表征被分类到所述父级原型网络中各父标签的父标签概率分布以及被分类到所述子级原型网络中各子标签的子标签概率分布,包括:计算所述联合事件表征与所述父级原型网络中各父标签的第一距离,并根据所述第一距离获取所述联合事件表征在所有父标签上的父标签概率,得到所述联合事件表征的父标签概率分布,其中预测的父标签为最大父标签概率对应的父标签;计算所述联合事件表征与所述子级原型网络中各子标签的第二距离,并根据所述第二距离获取所述联合事件表征在所有子标签上的子标签概率,得到所述联合事件表征的子标签概率分布,其中预测的最终标签为最大子标签概率对应的子标签。
[0012]在一种可选的方式中,所述对比实例包括同源子标签实例和异源子标签实例,所
述根据所述实例四元组应用所述小样本事件检测模型中的四元对比学习模块进行对比学习,获取第三损失,包括:将所述实例四元组中的各实例分别依次经所述多语言提示模块和所述两级层次化原型网络处理,分别生成对应的子标签概率;根据所述实例四元组中的各实例对应的子标签概率计算所述输入实例分别与同源子标签实例、异源子标签实例以及所述联合事件表征的相似情况;根据所述输入实例与所述实例四元组中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言提示学习的小样本事件检测模型训练方法,其特征在于,所述多语言提示学习的小样本事件检测模型训练方法包括:获取训练数据集,并对训练数据集中任一个实例作为输入实例应用小样本事件检测模型中的多语言提示模块获取预测的触发器,并获取第一损失;生成与所述输入实例对应的对比实例和双语实例,并根据所述输入实例和所述双语实例应用所述多语言提示模块进行多语言提示,获取事件嵌入的联合事件表征;应用所述小样本事件检测模型中的两级层次化原型网络对所述联合事件表征进行事件标签预测,并计算所述两级层次化原型网络的第二损失;根据所述输入实例、所述对比实例以及所述联合事件表征组建实例四元组,并根据所述实例四元组应用所述小样本事件检测模型中的四元对比学习模块进行对比学习,获取第三损失;对所述第一损失、所述第二损失以及所述第三损失进行加权求和得到所述小样本事件检测模型的总损失,并基于所述训练数据集和所述总损失对所述多语言提示模块和所述两级层次化原型网络进行循环优化学习,得到所述小样本事件检测模型。2.根据权利要求1所述的方法,其特征在于,所述获取训练数据集,包括:给定非结构化的事件文本x和一个事件标签空间Y,为事件文本x分配一个事件标签y∈Y,事件检测的过程为x

(x,t)

y,实例被表示为元组(x,t^,y^),其中,t^,y^分别是真实触发器标签和真实事件标签;从原始数据集中采样包括N个事件标签的训练集和开发集,每个所述事件标签包括k个实例,其余实例构成测试集,得到包括所述训练集、所述开发集以及所述测试集的训练数据集。3.根据权利要求1所述的方法,其特征在于,所述对训练数据集中任一个实例作为输入实例应用小样本事件检测模型中的多语言提示模块获取预测的触发器,并获取第一损失函数,包括:对训练数据集中任一个实例作为输入实例连接到多语言提示模块中的提示模板中,得到修改后的提示;将与所述输入实例对应的提示输入所述多语言提示模块中的跨语言编码器,预测触发器的概率分布;根据预测的触发器的概率分布计算第一损失。4.根据权利要求1所述的方法,其特征在于,所述双语实例包括中文实例和西班牙实例,所述根据所述输入实例和所述双语实例应用所述多语言提示模块进行多语言提示,获取事件嵌入的联合事件表征,包括:根据所述输入实例应用所述多语言提示模块中的英语提示模板基于所述输入实例中的真实触发器标签获取第一语言提示;根据所述中文实例和所述西班牙实例分别应用所述多语言提示模块中的中文提示模板和西班牙提示模板基于所述真实触发器标签获取第二语言提示和第三语言提示;将所述第一语言提示、所述第二语言提示以及所述第三语言提示分别输入所述多语言提示模块中的跨语言编码器,生成对应的第一事件嵌入、第二事件嵌入以及第三事件嵌入;计算所述第一事件嵌入、所述第二事件嵌入以及所述第三事件嵌入的平均值,得到事
件嵌入的联合事件表征。5.根据权利要求1所述的方法,其特征在于,所述小样本事件检测模型中的两级层次化原型网络包括父级原型网络和子级原型网络,所述应用所述小样本事件检测模型中的两级层次化原型网络对所述联合事件表征进行事件标签预测,并所述两级层次化原型网络的第二损失,包括:分别计算所述联合事件表征被分类到所述父级原型网络中各父标签的父标签概率分布以及被分类到所述子级原型网络中各子标...

【专利技术属性】
技术研发人员:蔡飞王思远郑建明陈皖玉刘登峰李佩宏刘诗贤罗雪山
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1