多语言提示学习的小样本事件检测模型训练方法及装置制造方法及图纸

技术编号：39165195 阅读：13 留言：0更新日期：2023-10-23 15:04

本发明专利技术实施例公开了一种多语言提示学习的小样本事件检测模型训练方法及装置，该方法包括：获取训练数据集，对任一输入实例应用多语言提示模块获取预测的触发器，获取第一损失；生成对比实例和双语实例，并根据输入实例和双语实例应用多语言提示模块进行多语言提示，获取事件嵌入的联合事件表征；应用两级层次化原型网络对联合事件表征进行事件标签预测，计算第二损失；组建实例四元组，并应用四元对比学习模块进行对比学习，获取第三损失；对各损失进行加权求和得到总损失，并基于训练数据集和总损失进行循环优化学习，得到小样本事件检测模型。通过上述方式，本发明专利技术实施例能够消除多义词混淆和同义词混淆，有效提高小样本事件检测的准确度。事件检测的准确度。事件检测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
多语言提示学习的小样本事件检测模型训练方法及装置

[0001]本专利技术实施例涉及小样本事件检测
，具体涉及一种多语言提示学习的小样本事件检测模型训练方法及装置。

技术介绍

[0002]随着信息提取技术的快速发展，事件检测(Event Detection，ED)作为这类技术的基础部分得到了越来越多的关注，它主要是通过从文本中定位关键触发器，然后为文本分配一个正确的事件标签。现有的事件检测方法主要采用神经网络从单语文本中获取语义信息，如卷积神经网络(CNN)、递归神经网络(RNN)、图神经网络(GNN)等。然而，它们在事件检测中仍然存在语义混淆，这是由仅提供有限单语线索的混淆触发器引起的。这种混淆在小样本事件检测(FSED)中会加剧，因为在小样本事件检测中标记的文本和语义是稀疏的。此外，事件标签的触发器分布不平衡使得捕获的触发器趋于单一，加剧了语义混淆。
[0003]一般的小样本事件检测模型将小样本事件检测扩展到一组由支持集和查询集组成的元任务中。通过训练大量已标记的元任务并从中提取元知识，这些模型可以在新的元任务上获得良好的小样本事件检测性能，但在实际数据稀缺的应用场景下注释大量的元任务仍然是劳动密集型的。且现有的小样本事件检测方法对语义混淆是盲目的，无法处理由令人困惑的触发器引起的预测陷阱，削弱了小样本事件检测的性能。
[0004]语义混淆主要归因于多义词混淆和同义词混淆。前者是由一个具有不同含义的触发器引起的。为了解决这种混淆，可以采用门控的多语言注意机制来提取多语言数据中的补充信息，但是这...

【技术保护点】

【技术特征摘要】
1.一种多语言提示学习的小样本事件检测模型训练方法，其特征在于，所述多语言提示学习的小样本事件检测模型训练方法包括：获取训练数据集，并对训练数据集中任一个实例作为输入实例应用小样本事件检测模型中的多语言提示模块获取预测的触发器，并获取第一损失；生成与所述输入实例对应的对比实例和双语实例，并根据所述输入实例和所述双语实例应用所述多语言提示模块进行多语言提示，获取事件嵌入的联合事件表征；应用所述小样本事件检测模型中的两级层次化原型网络对所述联合事件表征进行事件标签预测，并计算所述两级层次化原型网络的第二损失；根据所述输入实例、所述对比实例以及所述联合事件表征组建实例四元组，并根据所述实例四元组应用所述小样本事件检测模型中的四元对比学习模块进行对比学习，获取第三损失；对所述第一损失、所述第二损失以及所述第三损失进行加权求和得到所述小样本事件检测模型的总损失，并基于所述训练数据集和所述总损失对所述多语言提示模块和所述两级层次化原型网络进行循环优化学习，得到所述小样本事件检测模型。2.根据权利要求1所述的方法，其特征在于，所述获取训练数据集，包括：给定非结构化的事件文本x和一个事件标签空间Y，为事件文本x分配一个事件标签y∈Y，事件检测的过程为x
→
(x,t)
→
y，实例被表示为元组(x,t^,y^)，其中，t^,y^分别是真实触发器标签和真实事件标签；从原始数据集中采样包括N个事件标签的训练集和开发集，每个所述事件标签包括k个实例，其余实例构成测试集，得到包括所述训练集、所述开发集以及所述测试集的训练数据集。3.根据权利要求1所述的方法，其特征在于，所述对训练数据集中任一个实例作为输入实例应用小样本事件检测模型中的多语言提示模块获取预测的触发器，并获取第一损失函数，包括：对训练数据集中任一个实例作为输入实例连接到多语言提示模块中的提示模板中，得到修改后的提示；将与所述输入实例对应的提示输入所述多语言提示模块中的跨语言编码器，预测触发器的概率分布；根据预测的触发器的概率分布计算第一损失。4.根据权利要求1所述的方法，其特征在于，所述双语实例包括中文实例和西班牙实例，所述根据所述输入实例和所述双语实例应用所述多语言提示模块进行多语言提示，获取事件嵌入的联合事件表征，包括：根据所述输入实例应用所述多语言提示模块中的英语提示模板基于所述输入实例中的真实触发器标签获取第一语言提示；根据所述中文实例和所述西班牙实例分别应用所述多语言提示模块中的中文提示模板和西班牙提示模板基于所述真实触发器标签获取第二语言提示和第三语言提示；将所述第一语言提示、所述第二语言提示以及所述第三语言提示分别输入所述多语言提示模块中的跨语言编码器，生成对应的第一事件嵌入、第二事件嵌入以及第三事件嵌入；计算所述第一事件嵌入、所述第二事件嵌入以及所述第三事件嵌入的平均值，得到事
件嵌入的联合事件表征。5.根据权利要求1所述的方法，其特征在于，所述小样本事件检测模型中的两级层次化原型网络包括父级原型网络和子级原型网络，所述应用所述小样本事件检测模型中的两级层次化原型网络对所述联合事件表征进行事件标签预测，并所述两级层次化原型网络的第二损失，包括：分别计算所述联合事件表征被分类到所述父级原型网络中各父标签的父标签概率分布以及被分类到所述子级原型网络中各子标...

【专利技术属性】
技术研发人员：蔡飞，王思远，郑建明，陈皖玉，刘登峰，李佩宏，刘诗贤，罗雪山，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人