事件抽取方法、事件抽取装置和电子设备制造方法及图纸

技术编号:24854736 阅读:46 留言:0更新日期:2020-07-10 19:08
本申请公开了事件抽取方法、事件抽取装置和电子设备,涉及计算机数据处理领域,尤其涉及知识图谱领域。具体实现方案为:获取文本信息;根据文本信息,确定具有先后顺序的多个问题信息;按照先后顺序,依次将多个问题信息的向量信息输入至抽取模型,获得每个问题信息的抽取信息。在通过抽取模型对文本信息进行抽取时,依次对多个问题信息进行抽取,因为每个问题信息对应的答案不同,因此,在先前抽取的问题信息的答案基础上确定在后抽取的问题信息的答案时,可将先前抽取的问题信息的答案排除掉,缩小在后抽取的问题信息的抽取信息的范围,提高了信息抽取速度和准确率。

【技术实现步骤摘要】
事件抽取方法、事件抽取装置和电子设备
本申请涉及计算机
中的数据处理技术,尤其涉及一种事件抽取方法、事件抽取装置和电子设备。
技术介绍
信息抽取在海量的数据处理中有着非常重要的作用,其中,事件抽取是信息抽取领域的一个重要研究方向,事件抽取任务是从文本中抽取结构化的事件信息,包括事件的类型、触发词、事件的论元角色。事件抽取应用很广,在金融领域,可以定位、定量、定性分析金融中的各项活动,极大的解决人力资源;在医疗领域,通过诊断说明书以及病患的症状表述,可以很快锁定病患的疾病情况,可以让患者对病状的了解更加明确。但是目前的事件抽取方法,抽取效果差,事件抽取获得的结构化细信息准确率低。
技术实现思路
本申请实施例提供一种事件抽取方法、事件抽取装置和电子设备,以解决事件抽取获得的结构化细信息准确率低的问题。为解决上述技术问题,本申请是这样实现的:本申请第一方面提供一种事件抽取方法,包括:获取文本信息;根据所述文本信息,确定具有先后顺序的多个问题信息;按照所述先后顺序,依次将所述多个问题信息的向量信息输入至抽取模型,获得每个问题信息的抽取信息,其中,所述向量信息包括答案标记向量;根据所述每个问题信息的抽取信息,确定所述文本信息的事件抽取结果。进一步的,对于所述多个问题信息中排序在第一的第一问题信息,所述第一问题信息的答案标记向量根据所述文本信息的初始标记确定;对于所述多个问题信息中排序在第一问题信息之后的第二问题信息,所述第二问题信息的答案标记向量,根据排在所述第二问题信息之前的至少一个问题信息的抽取信息确定。进一步的,所述向量信息还包括位置向量;在所述根据所述文本信息,确定具有先后顺序的多个问题信息之后,所述按照所述先后顺序,依次将所述多个问题信息中的各个问题信息的向量信息输入至抽取模型,获得多个抽取信息之前,还包括:对于所述多个问题信息的每一个问题信息,对所述问题信息进行分词处理,获得至少一个目标词;获取所述至少一个目标词中每一个目标词的位置向量;根据所述至少一个目标词中每一个目标词的位置向量,确定所述问题信息的位置向量。进一步的,所述获取所述至少一个目标词中每一个目标词的位置向量,包括:若所述问题信息包括的实体个数大于或等于M,且所述问题信息包括的动词个数大于或等于N,则获取所述问题信息中的M个实体和N个动词,所述M和所述N均为正整数;对于所述至少一个目标词中的每一个目标词,分别计算所述目标词到所述M个实体的M个第一相对位置,以及所述目标词到所述N个动词的N个第二相对位置;分别将所述M个第一相对位置、所述N个第二相对位置映射到预设维度的正态分布向量上,获得M个第一位置向量和N个第二位置向量;将所述M个第一位置向量按照所述M个实体在所述问题信息中的先后顺序进行拼接,获得第一拼接向量;将所述N个第二位置向量按照所述N个动词在所述问题信息中的先后顺序进行拼接,获得第二拼接向量;将所述第一拼接向量和所述第二拼接向量进行拼接,并将拼接结果作为所述目标词的位置向量。进一步的,所述若所述问题信息包括的实体个数大于或等于M,且所述问题信息包括的动词个数大于或等于N,则获取所述问题信息中的M个实体和N个动词,包括:若所述问题信息包括的实体个数大于所述M且所述问题信息包括的动词个数大于或等于所述N,或者,若所述问题信息包括的动词个数大于所述N且所述问题信息包括的实体个数大于或等于所述M,则对所述问题信息进行句法依存分析,获得多个依存对;选择所述多个依存对中包括在同一个依存对中的实体和动词,获得m个实体和n个动词,所述m和所述n均为正整数;若所述m小于所述M,则从所述问题信息的所述m个实体之外的实体中,选择i个实体,以获得i个实体,其中,i为M与m的差值;若所述n小于所述N,则从所述问题信息的所述n个动词之外的动词中,选择j个动词,以获得j个动词,其中,j为N与n的差值。进一步的,根据所述文本信息,确定具有先后顺序的多个问题信息,包括:根据所述文本信息,确定所述文本信息的事件类型;根据所述事件类型,确定多个论元角色;分别将所述事件类型与所述多个论元角色中的各论元角色进行拼接,确定多个问题;分别将所述多个问题中的各个问题与所述文本信息进行拼接,获得所述多个问题信息;根据所述事件类型中所述各论元角色的顺序,对所述各论元角色对应的问题信息进行排序,确定具有先后顺序的多个问题信息。本申请第二方面提供一种事件抽取装置,包括:第一获取模块,用于获取文本信息;第一确定模块,用于根据所述文本信息,确定具有先后顺序的多个问题信息;第二获取模块,用于按照所述先后顺序,依次将所述多个问题信息的向量信息输入至抽取模型,获得每个问题信息的抽取信息,其中,所述向量信息包括答案标记向量;第二确定模块,用于根据所述每个问题信息的抽取信息,确定所述文本信息的事件抽取结果。进一步的,对于所述多个问题信息中排序在第一的第一问题信息,所述第一问题信息的答案标记向量根据所述文本信息的初始标记确定;对于所述多个问题信息中排序在第一问题信息之后的第二问题信息,所述第二问题信息的答案标记向量,根据排在所述第二问题信息之前的至少一个问题信息的抽取信息确定。进一步的,所述向量信息还包括位置向量;所述装置还包括:分词模块,用于对于所述多个问题信息的每一个问题信息,对所述问题信息进行分词处理,获得至少一个目标词;第三获取模块,用于获取所述至少一个目标词中每一个目标词的位置向量;第三确定模块,用于根据所述至少一个目标词中每一个目标词的位置向量,确定所述问题信息的位置向量。进一步的,所述第三获取模块,包括:第一获取子模块,用于若所述问题信息包括的实体个数大于或等于M,且所述问题信息包括的动词个数大于或等于N,则获取所述问题信息中的M个实体和N个动词,所述M和所述N均为正整数;计算子模块,用于对于所述至少一个目标词中的每一个目标词,分别计算所述目标词到所述M个实体的M个第一相对位置,以及所述目标词到所述N个动词的N个第二相对位置;映射子模块,用于分别将所述M个第一相对位置、所述N个第二相对位置映射到预设维度的正态分布向量上,获得M个第一位置向量和N个第二位置向量;第二获取子模块,用于将所述M个第一位置向量按照所述M个实体在所述问题信息中的先后顺序进行拼接,获得第一拼接向量;第三获取子模块,用于将所述N个第二位置向量按照所述N个动词在所述问题信息中的先后顺序进行拼接,获得第二拼接向量;第四获取子模块,用于将所述第一拼接向量和所述第二拼接向量进行拼接,并将拼接结果作为所述目标词的位置向量。进一步的,所述第一获取子模块,包括:第一获取单元,用于若所述问题信息包括的实体个数大于所述M且所述问题信息包括的动词个数大于或等本文档来自技高网...

【技术保护点】
1.一种事件抽取方法,其特征在于,包括:/n获取文本信息;/n根据所述文本信息,确定具有先后顺序的多个问题信息;/n按照所述先后顺序,依次将所述多个问题信息的向量信息输入至抽取模型,获得每个问题信息的抽取信息,其中,所述向量信息包括答案标记向量;/n根据所述每个问题信息的抽取信息,确定所述文本信息的事件抽取结果。/n

【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:
获取文本信息;
根据所述文本信息,确定具有先后顺序的多个问题信息;
按照所述先后顺序,依次将所述多个问题信息的向量信息输入至抽取模型,获得每个问题信息的抽取信息,其中,所述向量信息包括答案标记向量;
根据所述每个问题信息的抽取信息,确定所述文本信息的事件抽取结果。


2.根据权利要求1所述的事件抽取方法,其特征在于,对于所述多个问题信息中排序在第一的第一问题信息,所述第一问题信息的答案标记向量根据所述文本信息的初始标记确定;
对于所述多个问题信息中排序在第一问题信息之后的第二问题信息,所述第二问题信息的答案标记向量,根据排在所述第二问题信息之前的至少一个问题信息的抽取信息确定。


3.根据权利要求1所述的事件抽取方法,其特征在于,所述向量信息还包括位置向量;
在所述根据所述文本信息,确定具有先后顺序的多个问题信息之后,所述按照所述先后顺序,依次将所述多个问题信息中的各个问题信息的向量信息输入至抽取模型,获得多个抽取信息之前,还包括:
对于所述多个问题信息的每一个问题信息,对所述问题信息进行分词处理,获得至少一个目标词;
获取所述至少一个目标词中每一个目标词的位置向量;
根据所述至少一个目标词中每一个目标词的位置向量,确定所述问题信息的位置向量。


4.根据权利要求3所述的事件抽取方法,其特征在于,所述获取所述至少一个目标词中每一个目标词的位置向量,包括:
若所述问题信息包括的实体个数大于或等于M,且所述问题信息包括的动词个数大于或等于N,则获取所述问题信息中的M个实体和N个动词,所述M和所述N均为正整数;
对于所述至少一个目标词中的每一个目标词,分别计算所述目标词到所述M个实体的M个第一相对位置,以及所述目标词到所述N个动词的N个第二相对位置;
分别将所述M个第一相对位置、所述N个第二相对位置映射到预设维度的正态分布向量上,获得M个第一位置向量和N个第二位置向量;
将所述M个第一位置向量按照所述M个实体在所述问题信息中的先后顺序进行拼接,获得第一拼接向量;
将所述N个第二位置向量按照所述N个动词在所述问题信息中的先后顺序进行拼接,获得第二拼接向量;
将所述第一拼接向量和所述第二拼接向量进行拼接,并将拼接结果作为所述目标词的位置向量。


5.根据权利要求4所述的事件抽取方法,其特征在于,所述若所述问题信息包括的实体个数大于或等于M,且所述问题信息包括的动词个数大于或等于N,则获取所述问题信息中的M个实体和N个动词,包括:
若所述问题信息包括的实体个数大于所述M且所述问题信息包括的动词个数大于或等于所述N,或者,若所述问题信息包括的动词个数大于所述N且所述问题信息包括的实体个数大于或等于所述M,则对所述问题信息进行句法依存分析,获得多个依存对;
选择所述多个依存对中包括在同一个依存对中的实体和动词,获得m个实体和n个动词,所述m和所述n均为正整数;
若所述m小于所述M,则从所述问题信息的所述m个实体之外的实体中,选择i个实体,以获得i个实体,其中,i为M与m的差值;
若所述n小于所述N,则从所述问题信息的所述n个动词之外的动词中,选择j个动词,以获得j个动词,其中,j为N与n的差值。


6.根据权利要求1所述的事件抽取方法,其特征在于,根据所述文本信息,确定具有先后顺序的多个问题信息,包括:
根据所述文本信息,确定所述文本信息的事件类型;
根据所述事件类型,确定多个论元角色;
分别将所述事件类型与所述多个论元角色中的各论元角色进行拼接,确定多个问题;
分别将所述多个问题中的各个问题与所述文本信息进行拼接,获得所述多个问题信息;
根据所述事件类型中所述各论元角色的顺序,对所述各论元角色对应的问题信息进行排序,确定具有先后顺序的多个问题信息。


7.一种事件抽取装置,其特征在于,包括:
第一获取模块,用于获取文本信息;
第一确定模块,用于根据所述文本信息,确定具有先后顺序的多个问题信息;
第二获取模块,用于按照所述先后顺序,依次将所述多个问题信息的向量信息输入至抽取模型,获得...

【专利技术属性】
技术研发人员:潘禄陈玉光李法远韩翠云刘远圳黄佳艳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1