System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向叙事文本的少样本跨领域事件发现方法技术_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

一种面向叙事文本的少样本跨领域事件发现方法技术

技术编号:41417770 阅读:5 留言:0更新日期:2024-05-21 20:50
本发明专利技术公开一种面向叙事文本的少样本跨领域事件发现方法,包括以下步骤:(1)定义一种少样本跨领域事件发现任务,包含两个子任务,分别为领域内事件发现和少样本领域适应;(2)对于一个特定领域的带有正负样本标注的语料,采用基于多轮次正负平衡采样机制的方法训练一组模型参数,实现在该领域内不仅识别出已标注的正样本事件信息,还可以发现未被标注为正样本的事件信息;(3)构建一种领域参数适配器结构,在多领域的语料上获取少样本局部参数序列和常规局部参数序列,将前者输入适配器获取输出序列,与后者计算均方误差损失以更新元参数;(4)获取新领域上少样本局部参数序列在适配器上的输出序列的最后一个元素作为事件发现模型参数。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体为一种面向叙事文本的少样本跨领域事件发现方法


技术介绍

1、各种领域的叙述性文本,如新闻文章、法院判决、财务报告和项目日志,通常包含大量重要的事件信息。作为一项长期研究的任务,事件检测旨在识别文本的单词是否为事件触发词(触发词指能够表明特定事件发生的单词),并确定它们对应的事件类别。

2、一般领域(例如基于ace2005数据集)和特定领域(例如金融、生物医学、文学和网络安全)的有监督学习事件检测都得到了广泛的研究并表现良好。然而,这些方法的大多数优异性能都局限于特定的事件类别集或特定领域的语料库。当对新领域和新事件类别有新的需求时,需要大量带标注的样本和训练消耗。最近提出的基于原型的少样本事件检测旨在通过少量样本引入新的事件类别,然而,这些方法仍然需要提前定义事件类别,并要求样本正确匹配其类别,无法发现类别未定义的事件触发词。

3、从特定语料库(更不用说开放域语料库)中挖掘所有可能的(甚至预料之外的)事件信息是一项具有挑战性的任务,因为在缺少预定义的事件类别集时,如何定义“事件”的概念是一个复杂的问题。在之前的事件检测相关工作中,当面对一个新领域时,为了探索可能的事件信息,当前的做法是手动定义类别并根据类别标注数据,然后训练神经网络架构,如编码器和分类器。因此,事件类别与其触发词之间的关系可以看作先有类别,后有触发词,换句话说,事件类别的集合形成了“事件”的概念。

4、一些工作试图摆脱传统的模式,探索先有触发词,后有类别的模式。他们试图从开放域语料库中归纳出新的事件模式,包括新的事件类别,而无需事先定义类别,这种工作称为开放域事件检测。虽然它们基于强假设,例如谓词假设(即大多数事件由谓词动词触发)或新闻簇假设(即,可以从文章描述相同事件的新闻簇中总结事件)。在归纳类别之前确定事件触发词的阶段,他们通常使用简单的远程监督方法,如语义角色标注工具或词汇知识库,这可能会引入大量错误,需要在归纳阶段纠正,并且只保留语料库中的主要事件。这些方法往往容易带来两种情况:无法发现非显著事件及其触发词信息,这些事件可能是潜在的但有趣的,或者引入太多与事件无关的琐碎信息。

5、此外,由于这些研究都是在开放域情景下进行的,因此他们试图构建一种适用于一般领域的通用方法,而不考虑任何特定领域的语义特征,也不考虑与领域适应需求相关的不同领域之间的词汇和语义偏差。当面对一个新的未见过的领域时,以前方法的有效性在理论上很难保证。

6、鉴于上述开放域事件检测工作的不足,本专利技术提出了一种基于特定域的类别无关触发词的新定义。这里“类别无关”的概念指的是这样一种假设,即触发词的类别未知(因为它没有预先定义),但客观存在。本任务暂时不考虑其类别,但将由下游任务(如类别归纳)确定。现在不考虑事件类别的原因是,大多数触发词本身或其领域名称可以表示它们的类别:触发词本身可以被视为最细粒度的事件类别,其领域名称可以被视为最粗粒度的事件类别。

7、因此,在这项工作中,关注的是如何在考虑其类别之前尽可能多地发现某个领域内的高质量事件触发词,以及如何在面对新的未见过的领域时,仅使用少数标注样本实现领域适应。这样的需求自然带来了一项新的任务,称之为少样本跨领域事件发现。此任务包括一对子任务:领域事件发现和少样本领域适应。前者旨在识别特定领域内的类别无关事件触发词,后者旨在实现领域自适应,无需大量的标注样本和训练消耗。这有利于下游事件抽取和事件类别归纳等任务。


技术实现思路

1、本专利技术的目的是为了克服现有技术中的不足,提供一种面向叙事文本的少样本跨领域事件发现方法。

2、该方法为了解决已有方法只能检测类别预先已知并且被定义的事件的问题,提出了一个新的少样本跨领域事件发现任务,目的是在新领域中识别尽可能多的新触发词,无论它们的事件类别是否被定义和标注,而且无需大量的标注样本。本专利技术分别为这两个子任务设计了一个平衡采样机制和一个领域参数适配器结构。前者充分学习特定领域的事件触发词和非事件单词特征,从而区分彼此,发现更多的潜在未定义的触发词;后者显式地学习领域适应过程元知识,并以大规模一般领域数据作为指导,初步学习一般触发词知识,然后自动调整目标领域的适应性训练。由此方法得到的少样本跨领域事件发现方法相比于现有事件检测方法,在事件发现和领域自适应能力上得到了提升。

3、本专利技术的目的通过以下技术方案实现:

4、一种面向叙事文本的少样本跨领域事件发现方法,具体包括以下步骤:

5、(101)领域事件发现任务定义:给定一个由样本x={w,c,l,y}组成的特定域语料,记为其中w为样本在其所在的句子中对应的单词,c为单词在该句子中的上下文,l是样本在语料中是否为触发词的标注,y是样本的真实标签;此任务的最终目标是获取参数为θt的函数对于所有真实标签为y的样本x,尽可能使在参数θt的训练过程中,所有样本的真实标签y都是未知的,只有语料上的不完备标注l可用,不完备是指存在部分样本客观上是事件触发词,但被标注为负样本,即l=0;少样本领域适应任务定义:该任务的目标是获取具有可选参数φ的元学习器对于每个域t,使其中θt是通过对特定域常规数据进行训练获得的参数;θ是初始参数,是少样本语料库;对于每个域,其少样本语料库的文本与一致,但具有更少的正样本标注,即只有n个样本l=1。

6、基于平衡采样的领域事件发现方法:完全监督学习不适用于事件发现任务,因为过多的假负样本会使深度学习器学习不完整的正样本特征和假负样本特征,从而使其过于“保守”,无法发现更多的事件信息,测试场景的召回率往往非常低。相反,充分控制负样本的数量可能有助于减少假负样本的影响,并充分了解其特征。为了实现这一点,设计了一种平衡采样机制,它可以帮助充分了解正负样本各自的特征。

7、(201)正负样本平衡采样。不同于传统的句子批量输入,给定了一定领域的语料库从中随机抽取一定相同数量(记为m,这是一个不超过中正样本总数的数字)的正样本x+和负样本x-组成样本集t,进行一轮局部参数优化,如公式(1)所示。

8、

9、在常规和少样本情况下,正样本和负样本的采样空间可能存在差异,导致性能不同。

10、(202)样本语义表示。预训练语言模型(plms)提供了强大的文本表示能力。对于t中的每个样本x,通过plms的上下文编码获得其表示,如公式(2)所示。

11、h=plm(x)=plm(x)[index of w in x]           (2)

12、其中plm(x)[index of w in x]表示对整个句子x进行编码,然后得到与单词w相对应位置的表示向量。然后,对于每个表示向量h,应用归一化,使||h||2=1。

13、(203)局部参数优化。到目前为止,收集了一组样本的表示,如公式(3)所示。

14、

15、然后用随机初始化的参数θt构建二分类器对h中的每一个文本本文档来自技高网...

【技术保护点】

1.一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,步骤(1)具体包括:

3.根据权利要求1所述一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,步骤(2)具体包括:

4.根据权利要求1所述一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,步骤(3)具体包括:

5.根据权利要求1所述一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,步骤(4)具体包括:

【技术特征摘要】

1.一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种面向叙事文本的少样本跨领域事件发现方法,其特征在于,步骤(1)具体包括:

3.根据权利要求1所述一种面向叙事文本的少样本跨领域事件发现方...

【专利技术属性】
技术研发人员:贺瑞芳马劲松
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1