当前位置: 首页 > 专利查询>北京大学专利>正文

事件提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39048446 阅读:27 留言:0更新日期:2023-10-10 12:01
本申请涉及数据处理技术领域,提供一种事件提取方法、装置、电子设备和存储介质,该方法包括:基于提示学习,确定候选触发词集合和论元集合;基于所述候选触发词集合和所述论元集合,构建事件异构图;对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于所述事件模式进行事件抽取。本申请基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。的准确性和效率。的准确性和效率。

【技术实现步骤摘要】
事件提取方法、装置、电子设备和存储介质


[0001]本申请涉及数据处理
,尤其涉及一种事件提取方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,大多数现有的事件抽取工作需要人工预定义的事件模式作为前置信息,但是人工模板存在以下问题:费时费力,领域专家人工定义的事件模式数量和覆盖度有限,存在遗漏的事件和论元;迁移难,当事件抽取的领域和数据集变化时,需要重新人工定义模式。
[0003]基于此,采用自由事件提取(liberal Event Extraction,LEE)解决上述问题,自动发现事件模式并同时提取事件。然而,自由事件提取存在以下问题缺点:严重依赖于语义分析工具和外部知识库,并需要手动规则消除噪声并构建多语言资源之间的对齐映射;只考虑内部事件参数对事件类型的影响,而不考虑触发器对参数的影响以及事件与事件连接的交互;模型中的模块以管道的形式连接,不同模块之间不存在反向信息传输,以共同更新训练过程中的参数。
[0004]因此,现有事件抽取方法存在事件抽取效率低的问题。

技术实现思路

[0005]本申请提供一种事件提取方法、装置、电子设备和存储介质,用以解决事件抽取效率低的问题,通过基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。
[0006]本申请提供一种事件提取方法,包括:
[0007]基于提示学习,确定候选触发词集合和论元集合;
[0008]基于所述候选触发词集合和所述论元集合,构建事件异构图;
[0009]对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
[0010]基于所述事件模式进行事件抽取。
[0011]在一个实施例中,所述基于所述候选触发词集合和所述论元集合,构建事件异构图,包括:
[0012]将所述候选触发词集合中的各候选触发词和所述论元集合中的各论元,作为所述事件异构图的节点;
[0013]确定各节点的语义嵌入,以构建所述事件异构图。
[0014]在一个实施例中,所述确定各节点的语义嵌入,以构建所述事件异构图,包括:
[0015]确定所述各节点与其邻居节点的注意力系数;
[0016]对所述注意力系数进行归一化处理,以基于归一化处理后的注意力系数,确定所
述各节点的第一语义嵌入;
[0017]基于多头注意力和所述各节点的第一语义嵌入,确定所述各节点的第二语义嵌入;
[0018]基于所述各节点的第二语义嵌入,构建所述事件异构图。
[0019]在一个实施例中,所述基于提示学习,确定候选触发词集合和论元集合,包括:
[0020]基于所述提示学习,将原始输入文本转换为提示模板;
[0021]将所述提示模板输入预设的语言模型,获取所述预设的语言模型输出的候选触发词和候选论元,所述预设的语言模型是采用样本提示模板进行训练得到的;
[0022]基于所述候选触发词构建所述候选触发词集合,以及基于所述候选论元构建所述候选论元集合。
[0023]在一个实施例中,所述对所述事件异构图中的节点进行聚类,包括:
[0024]随机选取所述事件异构图中K个节点作为初始的聚类中心;
[0025]计算每个节点与各聚类中心之间的距离,将每个节点分配至与其距离最近的所述聚类中心,得到至少一个事件类型簇和至少一个论元类型簇。
[0026]在一个实施例中,所述对聚类后的聚类簇进行标签命名,包括:
[0027]若所述聚类簇为事件类型簇,则确定与所述事件类型簇距离最近的目标节点,将所述目标节点的节点文本作为所述事件类型簇的标签名;
[0028]若所述聚类簇为论元类型簇,则基于设定的标签名确定所述论元类型簇的标签名。
[0029]在一个实施例中,所述基于所述事件模式进行事件抽取,包括:
[0030]确定待抽取文本与所述事件模式的匹配结果;
[0031]基于所述匹配结果对所述待抽取文本进行事件抽取。
[0032]本申请还提出一种事件提取装置,包括:
[0033]集合确定模块,用于基于提示学习,确定候选触发词集合和论元集合;
[0034]事件异构图构建模块,用于基于所述候选触发词集合和所述论元集合,构建事件异构图;
[0035]事件模式生成模块,用于对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
[0036]事件抽取模块,用于基于所述事件模式进行事件抽取。
[0037]本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述事件提取方法。
[0038]本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述事件提取方法。
[0039]本申请提供的事件提取方法、装置、电子设备和存储介质,通过基于提示学习,确定候选触发词集合和论元集合;基于所述候选触发词集合和所述论元集合,构建事件异构图;对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于所述事件模式进行事件抽取。本申请基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信
息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。
附图说明
[0040]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是本申请提供的事件提取方法的流程示意图之一;
[0042]图2是本申请提供的事件提取方法的流程示意图之二;
[0043]图3是本申请提供的事件提取装置的结构示意图;
[0044]图4是本申请提供的电子设备的结构示意图。
具体实施方式
[0045]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0046]下面结合图1

图4描述本申请的事件提取方法、装置、电子设备和存储介质。
[0047]具体地,本申请提供了一种事件提取方法,参照图1,图1是本申请提供的事件提取方法的流程示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件提取方法,其特征在于,包括:基于提示学习,确定候选触发词集合和论元集合;基于所述候选触发词集合和所述论元集合,构建事件异构图;对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于所述事件模式进行事件抽取。2.根据权利要求1所述的事件提取方法,其特征在于,所述基于所述候选触发词集合和所述论元集合,构建事件异构图,包括:将所述候选触发词集合中的各候选触发词和所述论元集合中的各论元,作为所述事件异构图的节点;确定各节点的语义嵌入,以构建所述事件异构图。3.根据权利要求2所述的事件提取方法,其特征在于,所述确定各节点的语义嵌入,以构建所述事件异构图,包括:确定所述各节点与其邻居节点的注意力系数;对所述注意力系数进行归一化处理,以基于归一化处理后的注意力系数,确定所述各节点的第一语义嵌入;基于多头注意力和所述各节点的第一语义嵌入,确定所述各节点的第二语义嵌入;基于所述各节点的第二语义嵌入,构建所述事件异构图。4.根据权利要求1所述的事件提取方法,其特征在于,所述基于提示学习,确定候选触发词集合和论元集合,包括:基于所述提示学习,将原始输入文本转换为提示模板;将所述提示模板输入预设的语言模型,获取所述预设的语言模型输出的候选触发词和候选论元,所述预设的语言模型是采用样本提示模板进行训练得到的;基于所述候选触发词构建所述候选触发词集合,以及基于所述候选论元构建所述候选论元集合。5.根据权利要求1所述的事件提取方法,其特征在于,所述对所述事件异构图中的节点进行聚类...

【专利技术属性】
技术研发人员:赵文李皓辰王宇温立强
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1