论元的抽取方法技术

技术编号:39426397 阅读:8 留言:0更新日期:2023-11-19 16:13
本公开提供一种论元的抽取方法

【技术实现步骤摘要】
论元的抽取方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种论元的抽取方法

装置

电子设备及存储介质


技术介绍

[0002]随着自然语言处理领域的发展以及网络信息的飞速增长,人们获取个性化信息的难度持续增加,进而使得事件抽取成为信息抽取领域热门的研究话题

事件抽取的任务是从非结构化的文本中抽取出事件元素并组织成结构化的形式

[0003]现有的事件抽取方法中,其所使用的池化层只能捕捉句子中最重要的信息

因此,在对多事件句子进行事件抽取时,可能会遗漏有价值的信息,进而导致准确率

召回率较低

同时,其在进行论元抽取时,只关注了与触发词具有直接关联的论元实体,所以会遗失与触发词存在间接关联的论元实体,进而导致论元的召回率也较低


技术实现思路

[0004]有鉴于此,本公开的目的在于提出一种论元的抽取方法

装置

电子设备及存储介质

[0005]作为本公开的一个方面,提供了一种论元的抽取方法,包括:
[0006]获取目标文本;
[0007]对所述目标文本进行动态多池化处理,得到所述目标文本的触发词;
[0008]确定所述目标文本中的若干实体以及所述若干实体间的关系;
[0009]基于所述触发词所述若干实体以及所述若干实体间的关系,抽取所述目标文本的论元

[0010]可选的,所述对所述目标文本进行动态多池化处理,得到所述目标文本的触发词,包括:
[0011]对所述目标文本进行向量化处理,得到向量化处理后的目标文本;
[0012]基于预设的池化范围对所述向量化处理后的目标文本进行动态多池化处理,得到所述向量化处理后的目标文本的触发词

[0013]可选的,所述对所述目标文本进行向量化处理,得到向量化处理后的目标文本,包括:
[0014]确定所述目标文本中的若干词序列;
[0015]对所述若干词序列进行映射处理,得到所述若干词序列的向量表示;
[0016]将所述若干词序列的向量表示进行拼接,得到所述向量化处理后的目标文本

[0017]可选的,所述基于预设的池化范围对所述向量化处理后的目标文本进行动态多池化处理,得到所述向量化处理后的目标文本的触发词,包括:
[0018]确定所述向量化处理后的目标文本中的若干候选触发词;
[0019]基于第一池化范围对所述若干候选触发词进行第一次池化处理,得到所述若干候
选触发词的第一语义特征;
[0020]基于所述若干候选触发词在所述向量化处理后的目标文本中的位置对所述第一池化范围进行调整,得到第二池化范围;
[0021]基于所述第二池化范围对所述若干候选触发词进行第二次池化处理,得到所述若干候选触发词的第二语义特征;
[0022]基于所述第一语义特征以及所述第二语义特征确定所述向量化处理后的目标文本的触发词

[0023]可选的,所述基于所述第一语义特征以及所述第二语义特征确定所述向量化处理后的目标文本的触发词,包括:
[0024]对所述第一语义特征以及所述第二语义特征进行合并处理,得到目标特征;
[0025]基于所述目标特征确定所述向量化处理后的目标文本的触发词;
[0026]其中,所述目标特征表示为:
[0027]Context(W,w
i
)

concat(c
i,l
,c
i,r
)
[0028]其中,
Context
为目标特征,
W
为向量化处理后的目标文本中的若干词序列,
w
i
为若干词序列中的第
i
个单词,
concat
表示合并操作,
c
i,l
,c
i,r
分别为第一语义特征以及第二语义特征

[0029]可选的,所述基于所述触发词

所述若干实体以及所述若干实体间的关系,抽取所述目标文本的论元,包括:
[0030]计算所述若干实体中每一个实体与所述触发词的关联概率,并将所述关联概率大于预设值的实体作为所述目标文本的第一论元;
[0031]基于所述实体间的关系对所述第一论元进行迭代处理,得到所述目标文本的第二论元;
[0032]抽取所述第二论元

[0033]可选的,所述关联概率表示为:
[0034][0035]其中,
p
Role
为关联概率概率,和分别为触发词与若干实体的线性变换参数

[0036]作为本公开的第二个方面,本公开还提供了一种论元的抽取装置,包括:
[0037]目标文本获取模块,被配置为:获取目标文本;
[0038]触发词获取模块,被配置为:对所述目标文本进行动态多池化处理,得到所述目标文本的触发词;
[0039]实体关系确定模块,被配置为:确定所述目标文本中的若干实体以及所述若干实体间的关系;
[0040]论元提取模块,被配置为:基于所述触发词

所述若干实体以及所述若干实体间的关系,抽取所述目标文本的论元

[0041]作为本公开的第三个方面,本公开还提供了一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本公开所提供的上述的论元的抽取方法

[0042]作为本公开的第四个方面,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任意一项所述的方法

[0043]如上所述,本公开中,首先获取了待进行论元抽取的目标文本,然后对此目标文本进行了动态的多次池化处理,得到了目标文本的触发词,之后还确定了此目标文本中的实体,进而对这些实体进行了分析得到了实体间的关系,最后通过触发词

实体以及实体间的关系对此目标文本的论元进行了抽取

附图说明
[0044]为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0045]图
1A
为本公开实施例所提供的一种论元的抽取方法示意图

[0046]图
1B
为本公开实施例所提供的一种确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种论元的抽取方法,其特征在于,包括:获取目标文本;对所述目标文本进行动态多池化处理,得到所述目标文本的触发词;确定所述目标文本中的若干实体以及所述若干实体间的关系;基于所述触发词所述若干实体以及所述若干实体间的关系,抽取所述目标文本的论元
。2.
根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行动态多池化处理,得到所述目标文本的触发词,包括:对所述目标文本进行向量化处理,得到向量化处理后的目标文本;基于预设的池化范围对所述向量化处理后的目标文本进行动态多池化处理,得到所述向量化处理后的目标文本的触发词
。3.
根据权利要求2所述的方法,其特征在于,所述对所述目标文本进行向量化处理,得到向量化处理后的目标文本,包括:确定所述目标文本中的若干词序列;对所述若干词序列进行映射处理,得到所述若干词序列的向量表示;将所述若干词序列的向量表示进行拼接,得到所述向量化处理后的目标文本
。4.
根据权利要求3所述的方法,其特征在于,所述基于预设的池化范围对所述向量化处理后的目标文本进行动态多池化处理,得到所述向量化处理后的目标文本的触发词,包括:确定所述向量化处理后的目标文本中的若干候选触发词;基于第一池化范围对所述若干候选触发词进行第一次池化处理,得到所述若干候选触发词的第一语义特征;基于所述若干候选触发词在所述向量化处理后的目标文本中的位置对所述第一池化范围进行调整,得到第二池化范围;基于所述第二池化范围对所述若干候选触发词进行第二次池化处理,得到所述若干候选触发词的第二语义特征;基于所述第一语义特征以及所述第二语义特征确定所述向量化处理后的目标文本的触发词
。5.
根据权利要求4所述的方法,其特征在于,所述基于所述第一语义特征以及所述第二语义特征确定所述向量化处理后的目标文本的触发词,包括:对所述第一语义特征以及所述第二语义特征进行合并处理,得到目标特征;基于所述目标特征确定所述向量化处理后的目标文本的触发词;其中,所述目标特征表示为:
Context(W,w
i
)

context(c
i...

【专利技术属性】
技术研发人员:双锴赵文林郭金宇苏森
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1