基于小样本学习的多类型中文事件分类及要素抽取方法技术

技术编号:41708993 阅读:15 留言:0更新日期:2024-06-19 12:39
本发明专利技术公开了一种基于小样本学习的多类型中文事件分类及要素抽取方法,该方法包括:预模型选择:将通用信息抽取模型作为中文事件分类模型的预模型,并根据该模型的统一数据结构设计语料标注接口;文本语料标注:对模型应用领域的真实语料进行标注;模型微调训练:通过标注好的文本语料对中文事件分类模型进行微调;模型迭代调优:通过实际应用开放领域事件抽取任务文本对微调后模型进行测试,根据事件抽取和元素提取结果,对文本语料进行迭代调整,以优化模型。本发明专利技术能够快速实现开放领域事件分类与事件要素抽取。

【技术实现步骤摘要】

本专利技术涉及事件抽取,尤其涉及一种基于小样本学习的多类型中文事件分类及要素抽取方法


技术介绍

1、事件抽取作为构建事件图谱的重要前提,从非结构化的自然语言文本中自动抽取事件动作以及事件中参与的时间、地点、人物等元素,并处理为结构化的形式。事件抽取的主要工作是通过事件触发词及事件类型的识别,获取对应的事件元素,并为这些事件元素分配相应角色。

2、目前主流事件抽取方法采用基于机器学习的事件抽取方法,使用深层神经网络的机器学习,通过抽象数学的无监督逐层预训练,可以更有效地表征自然语言文本的基本特征。随着基于深度学习的事件抽取方法的发展,提出了基于注意力机制和语义特征的方法,通过使用注意力机制,从单词或字符级别的嵌入中动态决定使用多少信息,然后借助语义特征,从句子中获得更多关于单词的信息,使数据具有更好的特征表达,从而实现文本事件的有效抽取。

3、随着事件抽取研究的深入发展,其在理论和应用上都取得了很大的进展,但依然存在许多挑战问题。现阶段有关中文事件抽取的研究主要集中在金融、体育、科技、娱乐、社会活动、自然灾害等领域,领域之间尤其是开放域下的模型迁移性较差,这主要源于缺乏成熟的标注语料库,尤其缺乏开放领域的大规模中文标注语料库,而标注的语料库数据耗时耗力,给开放领域的跨领域通用模型训练带来困难。因此,开放领域场景下基于少量标注数据实现高效事件抽取的需求愈发迫切。


技术实现思路

1、鉴于此,本专利技术提出了一种基于小样本学习的多类型中文事件分类及要素抽取方法,通过设计基于小样本的文本标注与模型微调接口,能够实现基于少量样本标注对跨领域中文事件抽取模型进行微调训练,降低了训练语料标注的难度,同时支持多种类型中文事件分类与要素抽取,提升了多类型中文事件分类与要素抽取模型在不同领域的迁移能力。

2、本专利技术公开了一种基于小样本学习的中文事件分类及要素抽取方法,其包括:

3、步骤1:预模型选择:将通用信息抽取模型作为中文事件分类模型的预模型,并根据该模型的统一数据结构设计语料标注接口;

4、步骤2:文本语料标注:对模型应用领域中小于预审数量的真实语料进行标注;

5、步骤3:模型微调训练:通过标注好的文本语料对中文事件分类模型进行微调;

6、步骤4:模型迭代调优:通过开放领域事件抽取任务文本对微调后模型进行测试,根据事件抽取和元素提取结果,对文本语料进行迭代调整,以优化模型。

7、进一步地,在所述步骤1中,接口的样式包括文本和事件;文本包括正文内容;事件包括触发词字段、事件类型、事件要素实体和事件补充说明;触发词字段包括触发词字符起止位置;事件类型包括事件类型标签;事件要素实体包括实体字段和事件要素类型;实体字段包括实体字符串起止位置;事件要素类型包括主体、客体、时间和地点;事件补充说明包括补充说明字段和补充说明类型;补充说明字段包括说明字符串起止位置;补充说明类型包括数量、缘由、结果、方式和程度。

8、进一步地,在所述步骤2中,标注后得到的标注数据的类型分为:事件类型核心动作、事件要素实体、事件要素实体逻辑关系和事件补充说明;

9、事件类型核心动作:决定事件类型的核心动词或动词短语;事件要素实体:围绕事件核心动作的事件要素实体或短语,包括事件的主体、客体、时间和地点;事件要素实体逻辑关系:以三元组的形式描述同事件内两个事件要素实体或短语间的逻辑关系;事件补充说明包括数量、金额、内容、缘由、结果、方式和程度。

10、进一步地,对于语料样本中的数据字段i,语料样本表示为:

11、yi=(si,xi)

12、其中,si表示语料样本的结构化标签信息,xi表示语料样本中的数据字段i在事件文本中的语序;

13、标注好的语料样本表示为:

14、d=(s,x,y)

15、其中,s=[s1,s2,…,si]是语料样本包含的所有数据结构化标签序列,x=[x1,x2,…,xi]是语料样本包含的所有数据字段在事件文本中的语序序列,y=[y1,y2,…,yi]是语料样本包含的所有标注数据信息序列。

16、进一步地,所述步骤3包括:

17、划分训练集和验证集:从标注好的语料样本中随机选择部分作为验证集,剩余作为训练集,开始模型微调;构造训练集负样本:为缓解模型在训练过程中由于文本标注样本编解码而产生的误差,在对文本语料样本进行编码时,以概率pe随机插入空类型数据ynull=(sn,xnull),sn表示事件文本中不存在的事件类型核心动作或事件要素实体,xnull表示空语序;

18、交叉熵损失训练模型:对于标注好的语料样本d=(s,x,y),通过交叉熵损失函数来对中文事件分类模型进行微调。

19、进一步地,所述步骤3还包括:

20、记录训练好的事件分类模型的准确率、召回率和分数f1;

21、

22、进一步地,所述交叉熵损失函数为:

23、

24、其中,θe和θd分别为文本语料样本编码器和解码器的参数。

25、进一步地,所述步骤4包括:

26、开放领域事件抽取:将训练好的模型应用于事件文本数据,计算得到类型i的分类概率pi及相应要素抽取结果;

27、事件注意力过滤:基于场景下用户对事件类型的注意力参数αi,计算不同事件类型的注意力分类概率pi=piαi,依据注意力分类概率大小过滤掉该场景下不重要或用户不关注类型事件产生的潜在干扰,减少多类型分类产生的潜在干扰;

28、复判与结果修正:对真实事件文本的事件分类及要素抽取结果进行复判,对不合理的抽取项进行修正,生成基于真实事件文本分类结果的标注样本;

29、模型迭代调优:将复判生成的标注样本输入中文事件分类模型,进行迭代调优,记录迭代调优后模型准确率、召回率和分数f1。

30、进一步地,在所述复判与结果修正之后,还包括:

31、模型效果比较:对模型迭代调优结果与迭代前效果进行对比,若模型迭代调优结果的模型准确率、召回率和分数f1优于迭代前模型,则保留模型迭代调优结果;否则将模型回退至迭代前版本。

32、进一步地,在所述开放领域事件抽取中,事件分类结果表示为:

33、hα={h1,h2,…,hj|dz,α}

34、其中,hj表示第j个事件类型的分类潜在概率,dz表示真实事件文本语料,α为当前应用领域用户的关注度参数。

35、由于采用了上述技术方案,本专利技术具有如下的优点:

36、1.通过小样本文本语料标注接口的设计,使得中文事件分类模型能够基于小样本微调训练快速实现开放领域事件分类与事件要素抽取;

37、2.通过迭代调优方法,结合实际应用开放领域应用场景,对事件抽取结果进行调整并将调整反馈后语料用于迭代调优,提升事件分类模型在开放领域任务中的模型泛化能力;

38本文档来自技高网...

【技术保护点】

1.一种基于小样本学习的多类型中文事件分类及要素抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,接口的样式包括文本和事件;文本包括正文内容;事件包括触发词字段、事件类型、事件要素实体和事件补充说明;触发词字段包括触发词字符起止位置;事件类型包括事件类型标签;事件要素实体包括实体字段和事件要素类型;实体字段包括实体字符串起止位置;事件要素类型包括主体、客体、时间和地点;事件补充说明包括补充说明字段和补充说明类型;补充说明字段包括说明字符串起止位置;补充说明类型包括数量、缘由、结果、方式和程度。

3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,标注后得到的标注数据的类型分为:事件类型核心动作、事件要素实体、事件要素实体逻辑关系和事件补充说明;

4.根据权利要求3所述的方法,其特征在于,对于语料样本中的数据字段i,语料样本表示为:

5.根据权利要求1所述的方法,其特征在于,所述步骤3包括:

6.根据权利要求5所述的方法,其特征在于,所述步骤3还包括:

7.根据权利要求5所述的方法,其特征在于,所述交叉熵损失函数为:

8.根据权利要求1所述的方法,其特征在于,所述步骤4包括:

9.根据权利要求8所述的方法,其特征在于,在所述复判与结果修正之后,还包括:

10.根据权利要求8所述的方法,其特征在于,在所述实际应用开放领域事件抽取中,事件分类结果表示为:

...

【技术特征摘要】

1.一种基于小样本学习的多类型中文事件分类及要素抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,接口的样式包括文本和事件;文本包括正文内容;事件包括触发词字段、事件类型、事件要素实体和事件补充说明;触发词字段包括触发词字符起止位置;事件类型包括事件类型标签;事件要素实体包括实体字段和事件要素类型;实体字段包括实体字符串起止位置;事件要素类型包括主体、客体、时间和地点;事件补充说明包括补充说明字段和补充说明类型;补充说明字段包括说明字符串起止位置;补充说明类型包括数量、缘由、结果、方式和程度。

3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,标注后得到的标注数据的类型分为:事件类型...

【专利技术属性】
技术研发人员:陈俞舟刘万里曹开臣戴礼灿杨拓
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1