事件抽取方法、装置、智能终端及存储介质制造方法及图纸

技术编号:34193724 阅读:23 留言:0更新日期:2022-07-17 16:04
本发明专利技术公开了事件抽取方法、装置、智能终端及存储介质,其中,上述方法包括:获取待抽取语句,对其中每个词语进行词编码和位置编码,得到对应的词嵌入向量和位置嵌入向量;将词嵌入向量和位置嵌入向量相加获得第一输入向量并输入编码器,通过编码器输出语境化表达向量;将语境化表达向量输入多标签事件类型分类器以确定待抽取语句对应的事件类型嵌入向量,并获取对应的事件类型综合向量;将语境化表达向量和事件类型综合向量相加获得第二输入向量,将第二输入向量输入事件论元分类器以获取待抽取语句对应的事件论元;根据事件论元构建论元组合,对论元组合进行事件归类并确定各论元组合的目标事件类型。本发明专利技术有利于提高事件抽取的效率。抽取的效率。抽取的效率。

Event extraction method, device, intelligent terminal and storage medium

【技术实现步骤摘要】
事件抽取方法、装置、智能终端及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及的是一种事件抽取方法、装置、智能终端及存储介质。

技术介绍

[0002]随着科学技术的发展,自然语言处理技术得到了广泛的应用,事件抽取的应用也越来越广泛。事件是指在某个特定时间片段和地域范围内发生的由一个或多个角色参与并且由一个或多个动作组成的一件事情,一般是句子级的。通过事件抽取可以对事件进行结构化,结构化的目标是确定事件所属的事件类型,并提取该事件参与者。
[0003]现有技术中,进行事件抽取时依赖于预先设置的触发词。现有技术的问题在于,缺少对于句子本身的事件类型信息的关注,而设置的触发词不一定与句子完全对应,不利于提高事件抽取的准确性。
[0004]因此,现有技术还有待改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于提供一种事件抽取方法、装置、智能终端及存储介质,旨在解决现有技术中事件抽取过程中依赖于预先设置的触发词,缺少对于句子本身的事件类型信息的关注,而设置的触发词不一定与句子完全对应,不利于提高事件抽取的准确性的问题。
[0006]为了实现上述目的,本专利技术第一方面提供一种事件抽取方法,其中,上述事件抽取方法包括:获取待抽取语句,对上述待抽取语句中的每个词语进行词编码和位置编码,得到上述待抽取语句对应的词嵌入向量和位置嵌入向量;将上述词嵌入向量和上述位置嵌入向量相加以获得第一输入向量,将上述第一输入向量输入预先训练的编码器,通过上述编码器输出上述待抽取语句的语境化表达向量;将上述语境化表达向量输入预先训练的多标签事件类型分类器,通过上述多标签事件类型分类器确定上述待抽取语句对应的事件类型嵌入向量,根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量;将上述语境化表达向量和上述事件类型综合向量相加以获得第二输入向量,将上述第二输入向量输入预先训练的事件论元分类器,通过上述事件论元分类器获取上述待抽取语句对应的事件论元;根据上述事件论元构建论元组合,对各上述论元组合进行事件归类并确定各上述论元组合对应的目标事件类型,其中,一个上述论元组合对应的目标事件类型为非事件或上述待抽取语句对应的事件类型中的任意一种。
[0007]可选的,上述待抽取语句与多个事件类型对应,上述事件类型综合向量的维度与上述语境化表达向量的维度相同,上述将上述语境化表达向量输入预先训练的多标签事件
类型分类器,通过上述多标签事件类型分类器确定上述待抽取语句对应的事件类型嵌入向量,根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量,包括:将上述语境化表达向量输入预先训练的多标签事件类型分类器,通过上述多标签事件类型分类器确定上述待抽取语句对应的事件类型嵌入向量;根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量。
[0008]可选的,上述根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量,包括:获取各上述事件类型对应的事件概率,其中,上述事件概率是通过上述多标签事件类型分类器确定上述待抽取语句对应的事件类型嵌入向量时确定的;将事件概率大于预设的概率阈值的事件类型作为待处理事件类型,并将上述待处理事件类型对应的事件类型嵌入向量作为待处理嵌入向量;将各上述待处理事件类型对应的待处理嵌入向量进行加权求和以获得上述事件类型综合向量,其中,各上述待处理嵌入向量对应的权重系数相等,或者将各上述待处理事件类型对应的事件概率作为各上述待处理事件类型对应的待处理嵌入向量的权重系数。
[0009]可选的,上述根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量,包括:获取权重矩阵、投影矩阵和事件类型嵌入矩阵,其中,上述事件类型嵌入矩阵根据上述事件类型嵌入向量获得,上述权重矩阵是一个m行1列的矩阵,上述投影矩阵和上述事件类型嵌入矩阵都为m行d列的矩阵,m为上述待抽取语句对应的事件类型的个数,d为上述事件类型嵌入向量的维度;根据上述权重矩阵、上述投影矩阵、上述事件类型嵌入矩阵和上述语境化表达向量计算获取上述待抽取语句对应的事件类型综合向量;其中,上述权重矩阵中的各个元素分别为各上述事件类型对应的事件概率,或者上述权重矩阵中的各个元素分别为1。
[0010]可选的,第i个事件类型综合向量是目标矩阵的转置矩阵与上述事件类型嵌入矩阵的乘积,上述目标矩阵是目标乘积矩阵与上述权重矩阵求哈达玛乘积获取的,上述目标乘积矩阵是第i个语境化表达向量与上述投影矩阵的乘积。
[0011]可选的,上述根据上述事件论元构建论元组合,对各上述论元组合进行事件归类并确定各上述论元组合对应的目标事件类型,包括:获取各上述事件论元对应的词语属性,根据各上述事件论元对应的词语属性将各上述事件论元进行组合,获得多个论元组合,其中,每一个上述论元组合中包括多个事件论元,且一个上述论元组合中包括的各事件论元对应的词语属性不同;对各上述论元组合进行事件归类并确定各上述论元组合对应的目标事件类型。
[0012]可选的,上述对各上述论元组合进行事件归类并确定各上述论元组合对应的目标事件类型,包括:将上述论元组合输入预先训练的论元组合事件类型分类器,通过上述论元组合事件类型分类器对各上述事件论元组合进行事件归类并获取各上述论元组合对应的目标事件类型。
[0013]本专利技术第二方面提供一种事件抽取装置,其中,上述事件抽取装置包括:
语句处理模块,用于获取待抽取语句,对上述待抽取语句中的每个词语进行词编码和位置编码,得到上述待抽取语句对应的词嵌入向量和位置嵌入向量;嵌入向量处理模块,用于将上述词嵌入向量和上述位置嵌入向量相加以获得第一输入向量,将上述第一输入向量输入预先训练的编码器,通过上述编码器输出上述待抽取语句的语境化表达向量;事件类型确定模块,用于将上述语境化表达向量输入预先训练的多标签事件类型分类器,通过上述多标签事件类型分类器确定上述待抽取语句对应的事件类型嵌入向量,根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量;事件论元抽取模块,用于将上述语境化表达向量和上述事件类型综合向量相加以获得第二输入向量,将上述第二输入向量输入预先训练的事件论元分类器,通过上述事件论元分类器获取上述待抽取语句对应的事件论元;事件论元处理模块,用于根据上述事件论元构建论元组合,对各上述论元组合进行事件归类并确定各上述论元组合对应的目标事件类型,其中,一个上述论元组合对应的目标事件类型为非事件或上述待抽取语句对应的事件类型中的任意一种。
[0014]本专利技术第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的事件抽取程序,上述事件抽取程序被上述处理器执行时实现任意一项上述事件抽取方法的步骤。
[0015]本专利技术第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有事件抽取程序,上述事件抽取程序被处理器执行时实现任意一项上述事件抽取方法的步骤。
[0016]由上可见,本专利技术方案中,获取待抽取语句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法,其特征在于,所述事件抽取方法包括:获取待抽取语句,对所述待抽取语句中的每个词语进行词编码和位置编码,得到所述待抽取语句对应的词嵌入向量和位置嵌入向量;将所述词嵌入向量和所述位置嵌入向量相加以获得第一输入向量,将所述第一输入向量输入预先训练的编码器,通过所述编码器输出所述待抽取语句的语境化表达向量;将所述语境化表达向量输入预先训练的多标签事件类型分类器,通过所述多标签事件类型分类器确定所述待抽取语句对应的事件类型嵌入向量,根据所述事件类型嵌入向量获取所述待抽取语句对应的事件类型综合向量;将所述语境化表达向量和所述事件类型综合向量相加以获得第二输入向量,将所述第二输入向量输入预先训练的事件论元分类器,通过所述事件论元分类器获取所述待抽取语句对应的事件论元;根据所述事件论元构建论元组合,对各所述论元组合进行事件归类并确定各所述论元组合对应的目标事件类型,其中,一个所述论元组合对应的目标事件类型为非事件或所述待抽取语句对应的事件类型中的任意一种。2.根据权利要求1所述的事件抽取方法,其特征在于,所述待抽取语句与多个事件类型对应,所述事件类型综合向量的维度与所述语境化表达向量的维度相同,所述将所述语境化表达向量输入预先训练的多标签事件类型分类器,通过所述多标签事件类型分类器确定所述待抽取语句对应的事件类型嵌入向量,根据所述事件类型嵌入向量获取所述待抽取语句对应的事件类型综合向量,包括:将所述语境化表达向量输入预先训练的多标签事件类型分类器,通过所述多标签事件类型分类器确定所述待抽取语句对应的事件类型嵌入向量;根据所述事件类型嵌入向量获取所述待抽取语句对应的事件类型综合向量。3.根据权利要求2所述的事件抽取方法,其特征在于,所述根据所述事件类型嵌入向量获取所述待抽取语句对应的事件类型综合向量,包括:获取各所述事件类型对应的事件概率,其中,所述事件概率是通过所述多标签事件类型分类器确定所述待抽取语句对应的事件类型嵌入向量时确定的;将事件概率大于预设的概率阈值的事件类型作为待处理事件类型,并将所述待处理事件类型对应的事件类型嵌入向量作为待处理嵌入向量;将各所述待处理事件类型对应的待处理嵌入向量进行加权求和以获得所述事件类型综合向量,其中,各所述待处理嵌入向量对应的权重系数相等,或者将各所述待处理事件类型对应的事件概率作为各所述待处理事件类型对应的待处理嵌入向量的权重系数。4.根据权利要求2所述的事件抽取方法,其特征在于,所述根据所述事件类型嵌入向量获取所述待抽取语句对应的事件类型综合向量,包括:获取权重矩阵、投影矩阵和事件类型嵌入矩阵,其中,所述事件类型嵌入矩阵根据所述事件类型嵌入向量获得,所述权重矩阵是一个m行1列的矩阵,所述投影矩阵和所述事件类型嵌入矩阵都为m行d列的矩阵,m为所述待抽取语句对应的事件类型的个数,d为所述事件类型嵌入向量的维度;根据所述权重矩阵、所述投影矩阵、所述事件类型嵌入矩阵和所述语境化表达向量计算获取所述待抽取语句对应的事件类型综合向量;
其中,所述权重矩阵...

【专利技术属性】
技术研发人员:杨海钦叶俊鹏
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1