System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 融合实体类型信息的事件论元抽取方法及相关设备技术_技高网

融合实体类型信息的事件论元抽取方法及相关设备技术

技术编号:41075104 阅读:4 留言:0更新日期:2024-04-24 11:32
本申请提供一种融合实体类型信息的事件论元抽取方法及相关设备。所述方法包括:将待处理文本及该待处理文本对应的完整提示模板输入训练好的复合编码器,得到第一文本嵌入信息和模板嵌入信息;所述完整提示模板包括论元角色标签和每个所述论元角色标签对应的实体类型标签;基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息;基于所述模板嵌入信息确定所述待处理文本中论元角色及实体类型,并基于所述论元角色、所述实体类型和所述第二文本嵌入信息确定每个论元在所述待处理文本中的开始位置和结束位置。通过本申请可以有效提高论元抽取的效率和准确率。

【技术实现步骤摘要】

本申请涉及信息,尤其涉及一种融合实体类型信息的事件论元抽取方法及相关设备


技术介绍

1、事件论元抽取是从文本数据中快速识别和提取与事件相关的论元信息的任务。事件论元提取广泛应用于金融预测、新闻报道等多个领域,用来帮助研究人员和企业从大规模文本数据中自动化地提取事件论元,从而使得他们能够在海量信息中快速获得所需的关键知识,为下游任务的决策、分析和预测提供基础。

2、以往的事件论元抽取方法通过质询或机器阅读理解的方式逐个确定论元的开始位置和结束位置。然而这种抽取方法效率较低。由此,相关技术提出两类改进的抽取方法。第一类基于分类模型将文本中各个论元分类到预设类别。第二类基于生成模型确定文本中各个论元符合各个论元角色的概率,并最终确定各个论元所属类别。

3、然而,上述两类方法仍然存在语义依赖缺失、语义边界不明和语义理解模糊的问题。


技术实现思路

1、有鉴于此,本申请的目的在于解决
技术介绍
提出的技术问题,提出一种融合实体类型信息的事件论元抽取方法及相关设备。

2、基于上述目的,本申请提供了一种融合实体类型信息的事件论元抽取方法,包括:

3、将待处理文本及该待处理文本对应的完整提示模板输入训练好的复合编码器,得到第一文本嵌入信息和模板嵌入信息;所述完整提示模板包括论元角色标签和每个所述论元角色标签对应的实体类型标签;

4、基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息;

5、基于所述模板嵌入信息确定所述待处理文本中论元角色及实体类型,并基于所述论元角色、所述实体类型和所述第二文本嵌入信息确定每个论元在所述待处理文本中的开始位置和结束位置。

6、可选地,所述复合编码器包括经典编码器和非自回归解码器。

7、可选地,所述复合编码器的训练步骤包括:

8、获取训练用数据集;

9、确定训练用数据集中的所有事件类型,并设置每个所述事件类型对应的提示模板;所述提示模板包括论元角色标签和实体类型标签;

10、建立所述事件类型与所述提示模板对应关系的字典;

11、根据所述训练用数据集中每个实例的事件类型,在所述字典中索引对应的提示模板,并在所述提示模板中添加该实例对应的事件类型标签和触发词信息得到完整提示模板;

12、根据所述训练用数据集和所述完整提示模板训练所述复合编码器。

13、可选地,所述基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息,包括:

14、将所述第一文本嵌入信息与所述预设的实体类型标签矩阵输入基于交叉注意力机制的神经网络模型,得到第三文本嵌入信息;

15、拼接所述第三文本嵌入信息和所述第一文本嵌入信息,得到第四文本嵌入信息;

16、将所述第四文本嵌入信息输入基于联合学习和实体类型的命名实体识别模型,得到所述待处理文本的序列标注标签嵌入信息;所述序列标注标签嵌入信息指示所述待处理文本中每个词的实体类型标签;

17、将所述序列标注标签嵌入信息整合到所述第一文本嵌入信息中,得到所述第二文本嵌入信息。

18、可选地,所述基于所述论元角色、所述实体类型和所述第二文本嵌入信息确定每个论元在所述待处理文本中的开始位置和结束位置,包括:

19、基于所述第二文本嵌入信息,确定每个论元角色的第一开始位置得分分布和第一结束位置得分分布;

20、基于所述第二文本嵌入信息,确定每个实体类型的第二开始位置得分分布和第二结束位置得分分布;

21、基于所述第一开始位置得分分布和第二开始位置得分分布,得到所述待处理文本中每个论元的第三开始位置得分分布;

22、基于所述第一结束位置得分分布和第二结束位置得分分布,得到所述待处理文本中每个论元的第三结束位置得分分布;

23、确定所述第三开始位置的分和所述第三结束位置得分超过预设阈值的位置为目标开始位置和目标结束位置。

24、可选地,所述基于所述第二文本嵌入信息,确定每个论元角色的第一开始位置得分分布和第一结束位置得分分布,包括:

25、基于所述待处理文本中论元角色,得到基于论元角色的跨度选择器;所述基于论元角色的跨度选择器用于基于论元角色确定论元在所述待处理文本中的开始位置和结束位置;

26、基于所述基于论元角色的跨度选择器和所述第二文本嵌入信息,得到所述第一开始位置得分分布和第一结束位置得分分布。

27、可选地,所述基于所述第二文本嵌入信息,确定每个实体类型的第二开始位置得分分布和第二结束位置得分分布,包括:

28、基于所述待处理文本中实体类型,得到基于实体类型的跨度选择器;所述基于实体类型的跨度选择器用于基于实体类型确定论元在所述待处理文本中的开始位置和结束位置;

29、基于所述基于实体类型的跨度选择器和所述第二文本嵌入信息,得到所述第二开始位置得分分布和第二结束位置得分分布。

30、基于同一专利技术构思,本申请一个或多个实施例还提供了一种融合实体类型信息的事件论元抽取装置,包括:

31、第一计算模块,被配置为将待处理文本及该待处理文本对应的提示模板输入训练好的复合编码器,得到第一文本嵌入信息和模板嵌入信息;所述提示模板包括论元角色标签和每个所述论元角色标签对应的实体类型标签;

32、第二计算模块,被配置为基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息;

33、第三计算模块,被配置为基于所述模板嵌入信息确定所述待处理文本中论元角色及实体类型,并基于所述论元角色、所述实体类型和所述第二文本嵌入信息确定每个论元在所述待处理文本中的开始位置和结束位置。

34、基于同一专利技术构思,本申请一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的融合实体类型信息的事件论元抽取方法。

35、基于同一专利技术构思,本申请一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的融合实体类型信息的事件论元抽取方法。

36、从上面所述可以看出,本申请提供的融合实体类型信息的事件论元抽取方法,通过将待处理文本及该待处理文本对应的提示模板输入训练好的复合编码器,得到第一文本嵌入信息和模板嵌入信息;所述提示模板包括论元角色标签和每个所述论元角色标签对应的实体类型标签;基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息;基于所述模板嵌入信息确定所述待处理文本中论元角本文档来自技高网...

【技术保护点】

1.一种融合实体类型信息的事件论元抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述复合编码器包括经典编码器和非自回归解码器。

3.根据权利要求2所述的方法,其特征在于,所述复合编码器的训练步骤包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述论元角色、所述实体类型和所述第二文本嵌入信息确定每个论元在所述待处理文本中的开始位置和结束位置,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第二文本嵌入信息,确定每个论元角色的第一开始位置得分分布和第一结束位置得分分布,包括:

7.根据权利要求5所述的方法,其特征在于,所述基于所述第二文本嵌入信息,确定每个实体类型的第二开始位置得分分布和第二结束位置得分分布,包括:

8.一种融合实体类型信息的事件论元抽取装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一所述方法。

10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。

...

【技术特征摘要】

1.一种融合实体类型信息的事件论元抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述复合编码器包括经典编码器和非自回归解码器。

3.根据权利要求2所述的方法,其特征在于,所述复合编码器的训练步骤包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本嵌入信息和预设的实体类型标签矩阵,确定所述待处理文本中每个词的实体类型标签,并得到第二文本嵌入信息,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述论元角色、所述实体类型和所述第二文本嵌入信息确定每个论元在所述待处理文本中的开始位置和结束位置,包括:

6.根据权利要求5所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:双锴杨钰苏森
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1