一种基于本体指导的生成式事件抽取方法技术

技术编号：32119203 阅读：43 留言：0更新日期：2022-01-29 19:05

本发明专利技术公开了一种基于本体指导的生成式事件抽取方法，包括：(1)构建事件本体知识库；(2)设计事件触发词提取模板和事件论元提取模板，分别将输入事件文本映射为第一输入序列，和将融入事件本体的输入事件文本映射为第二输入序列；(3)设计映射多单词标签到事件类型和/或角色类型的类标映射函数；(4)从事件本体知识库中提取与输入事件对应的事件本体后，按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列并输入事件提取模型；(5)事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型，同时输出事件触发词跨度和事件论元跨度。该方法以实现在全监督和少样本场景下高效地抽取事件结构化知识。构化知识。构化知识。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于本体指导的生成式事件抽取方法

[0001]本专利技术涉及自然语言处理中的信息抽取
，特别是涉及一种基于本体指导的生成式事件抽取方法。

技术介绍

[0002]事件作为信息的一种表现形式，其定义为特定的人、物在特定时间和特定地点相互作用的客观事实，一般来说是句子级的。在话题检测与跟踪(Topic Detection Tracking，TDT)中，事件是指关于某一主题的一组相关描述，这个主题可以是由分类或聚类形成的。
[0003]组成事件的各元素包括：触发词(trigger word)、事件类型(Event Type)、事件论元(Event Argument)及论元角色(Argument Role)。事件触发词表示事件发生的核心词，多为动词或名词。事件类型是指事件所属类型。事件论元是指事件的参与者，主要由实体、值、时间组成，值是一种非实体的事件参与者，例如工作岗位。论元角色是指事件论元在事件中充当的角色。
[0004]事件抽取是从非结构化信息中抽取出用户感兴趣的事件，并以结构化呈现给用户。事件抽取任务可分解为4个子任务：触发词识别、事件类型分类、论元识别和角色分类任务。其中，触发词识别和事件类型分类可合并成事件识别任务。事件识别分类判断句子中的每个单词归属的事件类型，是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务，判断句子中任意一对触发词和实体之间的角色关系。
[0005]事件抽取的目的是用文本中的参数来识别事件触发器，...

【技术保护点】

【技术特征摘要】
1.一种基于本体指导的生成式事件抽取方法，其特征在于，包括以下步骤：步骤1，根据领域知识库和事件标注框架构建事件本体知识库；步骤2，设计生成式事件抽取的事件触发词提取模板和事件论元提取模板；事件触发词提取模板将输入事件文本映射为事件提取模型的第一输入序列；事件论元提取模板将融入事件本体的输入事件文本映射为事件提取模型的第二输入序列；步骤3，设计类标映射函数，该映类标射函数处理多单词标签到事件类型和/或角色类型的映射；步骤4，对于输入事件文本，从事件本体知识库中提取与输入事件对应的事件本体，并根据输入事件文本和事件本体，按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列；步骤5，第一输入序列和第二输入序列输入事件提取模型，事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型，同时输出事件触发词跨度和事件论元跨度。2.根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤1中，构建事件本体知识库的过程为：步骤1.1，利用ACE预定义的事件框架作为目标事件本体；步骤1.2，抽取FrameNet中与目标事件本体相关的事件框架作为扩充的事件本体；步骤1.3，整合目标事件本体和扩充的事件本体，进行去重和人工检查，得到事件本体知识库。3.根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤2中，设计的事件触发词提取模板为：[第一标记符]<伪模板><输入事件文本>[第二标记符]事件触发词为[MASK],触发词令牌为，对应英文为[CLS]<pseudo template><input sentence>[SOS]The trigger word is[MASK],trigger token is；其中，伪模板采用预训练词嵌入中未使用的虚拟伪标签。4.根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤2中，设计的事件论元提取模板为：[第一标记符]<事件本体><输入事件文本>[第二标记符]论元类型为[MASK],论元令牌为，对应英文为[CLS]<Event ontology><input sentence>[SOS]The argument type is[MASK],argument token is。5.根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤3中，设计的类标映射函数为：Y(r
i
)＝{w1,w2,...,w
n
}在进行事件类型预测...

【专利技术属性】
技术研发人员：陈华钧，叶宏彬，张宁豫，邓淑敏，毕祯，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人