当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于本体指导的生成式事件抽取方法技术

技术编号:32119203 阅读:43 留言:0更新日期:2022-01-29 19:05
本发明专利技术公开了一种基于本体指导的生成式事件抽取方法,包括:(1)构建事件本体知识库;(2)设计事件触发词提取模板和事件论元提取模板,分别将输入事件文本映射为第一输入序列,和将融入事件本体的输入事件文本映射为第二输入序列;(3)设计映射多单词标签到事件类型和/或角色类型的类标映射函数;(4)从事件本体知识库中提取与输入事件对应的事件本体后,按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列并输入事件提取模型;(5)事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型,同时输出事件触发词跨度和事件论元跨度。该方法以实现在全监督和少样本场景下高效地抽取事件结构化知识。构化知识。构化知识。

【技术实现步骤摘要】
一种基于本体指导的生成式事件抽取方法


[0001]本专利技术涉及自然语言处理中的信息抽取
,特别是涉及一种基于本体指导的生成式事件抽取方法。

技术介绍

[0002]事件作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。在话题检测与跟踪(Topic Detection Tracking,TDT)中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。
[0003]组成事件的各元素包括:触发词(trigger word)、事件类型(Event Type)、事件论元(Event Argument)及论元角色(Argument Role)。事件触发词表示事件发生的核心词,多为动词或名词。事件类型是指事件所属类型。事件论元是指事件的参与者,主要由实体、值、时间组成,值是一种非实体的事件参与者,例如工作岗位。论元角色是指事件论元在事件中充当的角色。
[0004]事件抽取是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别分类判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
[0005]事件抽取的目的是用文本中的参数来识别事件触发器,通常被表述为一个分类或结构化的预测问题。例如,输入句子“The divorce settlement called for Giuliani to pay Hanover more than$6.8million.”,事件抽取应该提取两个事件,一个是“Life:Divorce”事件类型,触发词是“divorce”,由一个事件参数组成:论元跨度为“Giuliani”,角色类型为“Person”。另一个是“Transaction:Transfer

Money”事件类型,触发词是“pay”,由三个事件参数组成:论元跨度为“Giuliani”,角色类型为“Giver”;论元跨度为“$6.8million”,角色类型为“Money”;论元跨度为“Hanover”,角色类型为“Recipient”。句子中包含多个事件为事件抽取带来了更多的挑战。此外,论元跨度在不同事件中也存在重叠问题,例如示例句子中的“Giuliani”需要在两种不同类型的事件中同时扮演不同的论元角色。
[0006]传统方法采用序列标注的方法进行事件提取,然而这解决不了论元角色重叠的问题。此外,传统事件提取模型通常还存在着需要设计复杂的模型架构和对新事件类型的弱泛化性问题。

技术实现思路

[0007]鉴于上述,本专利技术的目的是提供一种基于本体指导的生成式事件抽取方法,以实
现在全监督和少样本场景下高效地抽取事件结构化知识。
[0008]为实现上述专利技术目的,本专利技术提供以下技术方案:
[0009]一种基于本体指导的生成式事件抽取方法,包括以下步骤:
[0010]步骤1,根据领域知识库和事件标注框架构建事件本体知识库;
[0011]步骤2,设计生成式事件抽取的事件触发词提取模板和事件论元提取模板;事件触发词提取模板将输入事件文本映射为事件提取模型的第一输入序列;事件论元提取模板将融入事件本体的输入事件文本映射为事件提取模型的第二输入序列;
[0012]步骤3,设计类标映射函数,该映类标射函数处理多单词标签到事件类型和/或角色类型的映射;
[0013]步骤4,对于输入事件文本,从事件本体知识库中提取与输入事件对应的事件本体,并根据输入事件文本和事件本体,按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列;
[0014]步骤5,第一输入序列和的第二输入序列输入事件提取模型,事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型,同时输出事件触发词跨度和事件论元跨度。
[0015]与现有技术相比,本专利技术具有的有益效果至少包括:
[0016]在构建事件本体知识库的基础上,通过设计的事件触发词提取模板和事件论元提取模板,将事件本体和增加的提示词融入到输入序列中,这样为事件提取模型注入事件本体知识,隐式地建模事件触发词和事件论元之间的相关性,然后利用融合事件本体的提示词来指导事件序列文本的生成,提高了在全监督和少样本场景下的性能,提高了事件提取模型的收敛速度,提高了多事件抽取和重叠事件论元的抽取速度和准确性,具有一定的工业实用价值。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0018]图1是一实施例提供的基于本体指导的生成式事件抽取方法的流程图;
[0019]图2是一实施例提供的基于本体指导的生成式事件抽取方法的总体框架图;
[0020]图3是一实施例提供的事件触发词抽取和事件类型分类的模型结构图;
[0021]图4是一实施例提供的事件论元抽取和事件角色分类的模型结构图。
具体实施方式
[0022]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。
[0023]为了解决现有事件提取方法中存在的论元角色重叠的问题,和设计复杂的模型架构和对新事件类型的弱泛化性问题,导致的事件提取速度慢,不准确的问题,本专利技术提供了
一种基于本体指导的生成式事件抽取方法,将结构化事件信息重组为文本信息作为监督,并使用端到端语言生成模型来指导包含事件信息的序列文本的生成。为了融入外部事件知识,通过外部知识库为每个子事件类型构建一个事件本体知识库,并通过传播算法建立事件和事件之间的联系,将事件本体知识库与提示模板进行序列化和集成,为模型注入事件本体知识,隐式地建模事件触发词和事件论元之间的相关性。在此基础上,将事件提取视为自然语言生成的新框架,基于提示词的微调方法,减少了预训练模型和微调任务之间的差距,提高了预训练模型中的知识对下游任务的转移和适应的效率。
[0024]图1是一实施例提供的基于本体指导的生成式事件抽取方法的流程图,图2是一实施例提供的基于本体指导的生成式事件抽取方法的总体框架图,如图1和图2所示,实施例提供的生成式事件抽取方法,包括以下步骤:
[0025]步骤1,根据领域知识库和事件标注框架构建事件本体知识库。
[0026]实施例中,构建事件本体知识库的过程为:
[0027]步骤1.1,利用ACE预定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于本体指导的生成式事件抽取方法,其特征在于,包括以下步骤:步骤1,根据领域知识库和事件标注框架构建事件本体知识库;步骤2,设计生成式事件抽取的事件触发词提取模板和事件论元提取模板;事件触发词提取模板将输入事件文本映射为事件提取模型的第一输入序列;事件论元提取模板将融入事件本体的输入事件文本映射为事件提取模型的第二输入序列;步骤3,设计类标映射函数,该映类标射函数处理多单词标签到事件类型和/或角色类型的映射;步骤4,对于输入事件文本,从事件本体知识库中提取与输入事件对应的事件本体,并根据输入事件文本和事件本体,按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列;步骤5,第一输入序列和第二输入序列输入事件提取模型,事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型,同时输出事件触发词跨度和事件论元跨度。2.根据权利要求1所述的基于本体指导的生成式事件抽取方法,其特征在于,步骤1中,构建事件本体知识库的过程为:步骤1.1,利用ACE预定义的事件框架作为目标事件本体;步骤1.2,抽取FrameNet中与目标事件本体相关的事件框架作为扩充的事件本体;步骤1.3,整合目标事件本体和扩充的事件本体,进行去重和人工检查,得到事件本体知识库。3.根据权利要求1所述的基于本体指导的生成式事件抽取方法,其特征在于,步骤2中,设计的事件触发词提取模板为:[第一标记符]<伪模板><输入事件文本>[第二标记符]事件触发词为[MASK],触发词令牌为,对应英文为[CLS]<pseudo template><input sentence>[SOS]The trigger word is[MASK],trigger token is;其中,伪模板采用预训练词嵌入中未使用的虚拟伪标签。4.根据权利要求1所述的基于本体指导的生成式事件抽取方法,其特征在于,步骤2中,设计的事件论元提取模板为:[第一标记符]<事件本体><输入事件文本>[第二标记符]论元类型为[MASK],论元令牌为,对应英文为[CLS]<Event ontology><input sentence>[SOS]The argument type is[MASK],argument token is。5.根据权利要求1所述的基于本体指导的生成式事件抽取方法,其特征在于,步骤3中,设计的类标映射函数为:Y(r
i
)={w1,w2,...,w
n
}在进行事件类型预测...

【专利技术属性】
技术研发人员:陈华钧叶宏彬张宁豫邓淑敏毕祯
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1