对文本中的事件论元进行抽取的方法和电子设备技术

技术编号:32978816 阅读:25 留言:0更新日期:2022-04-09 12:01
本公开涉及一种对文本中的事件论元进行抽取的方法和电子设备,该方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据该目标事件类型及对应的目标论元角色的先验关联信息,构造得到论元抽取问题;将待处理文本和论元抽取问题进行拼接,得到目标文本;将该目标文本的表示向量输入至机器阅读理解模型中,该模型包括两层依序设置的分类器,第一层分类器同步对该目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;根据该答案预测结果和对应的标签,输出事件论元。输出事件论元。输出事件论元。

【技术实现步骤摘要】
对文本中的事件论元进行抽取的方法和电子设备


[0001]本公开涉及文本数据处理领域和人工智能
,尤其涉及一种对文本中的事件论元进行抽取的方法和电子设备。

技术介绍

[0002]在面对海量信息时,如何从海量的文本数据中挖掘有用信息成为重要问题。许多信息一般是以事件的形式存在,而事件抽取就是从大量非结构化文本中抽取特定类型的事件触发词以及相应的事件论元并以结构化的形式呈现出来,这是信息抽取领域中的一个重要的任务。
[0003]在实现本公开构思的过程中,发现相关技术中至少存在如下技术问题:在事件论元抽取时存在一个论元角色对应多个论元实体和论元为嵌套实体的场景,目前的方法无法对上述两种场景做到论元的精确提取;级联式抽取先对候选论元进行抽取,再对候选论元分类,存在误差传递的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种对文本中的事件论元进行抽取的方法和电子设备。
[0005]第一方面,本公开的实施例提供了一种对文本中的事件论元进行抽取的方法。上述方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题;将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本;将上述目标文本的表示向量输入至机器阅读理解模型中,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;以及根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元。
[0006]根据本公开的实施例,上述第一层分类器包括三个分类器,分别为第一分类器、第二分类器和第三分类器,其中第一分类器用于预测上述目标文本是否存在针对上述论元抽取问题的答案,得到的预测结果为上述答案指示标签,第二分类器用于预测上述表示向量对应的每个词素是否为答案的开始位置,第三分类器用于预测上述表示向量对应的每个词素是否为答案的结束位置。
[0007]根据本公开的实施例,上述目标文本的表示向量为字节对编码向量、分段向量和位置向量这三种向量进行拼接后的拼接向量形式。
[0008]根据本公开的实施例,上述目标论元角色的先验关联信息包括:上述目标论元角色对应的关键词描述信息、上述目标论元角色对应的标注文档定义信息、以及上述目标论
元角色对应的事件先验信息;上述事件先验信息包括以下至少一种:目标论元角色的实体类型、实体列举实例;根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题,包括以下至少一种:采用在一已知事件中提问上述目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题;或者,采用在一已知事件中提问上述目标论元角色对应的标注文档定义信息的方式来构造得到论元抽取问题;或者,采用在一已知事件中提问上述目标论元角色对应的事件先验信息的方式来构造得到论元抽取问题;其中,已知事件为上述目标事件类型对应的事件。
[0009]根据本公开的实施例,对待处理文本中包含的事件类型进行检测,得到目标事件类型,包括:将待处理文本的文本编码向量输入至预训练语言模型中,输出得到上述待处理文本的隐层向量;将上述隐层向量输入至条件随机场(CRF)模型中,输出得到与上述待处理文本对应的最优文本标签序列,上述条件随机场模型用于建模标签之间的关系;以及根据上述最优文本标签序列,得到上述待处理文本的目标事件类型及所对应的事件触发词。根据本公开的实施例,上述阅读理解模型通过以下方式构建得到:对待训练文本中包含的事件类型进行检测,得到候选事件类型;根据上述候选事件类型和上述候选事件类型对应的候选论元角色的先验关联信息,构造得到针对上述待训练文本的训练用论元抽取问题;将上述待训练文本和上述训练用论元抽取问题进行拼接,得到拼接后的目标训练文本;将上述目标训练文本的表示向量输入至待训练阅读理解模型中,上述待训练阅读理解模型的第一层分类器同步对上述目标训练文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有候选答案指示标签的候选位置预测结果;上述待训练阅读理解模型的第二层分类器对上述候选位置预测结果中开始位置和结束位置进行配对组合后的候选预测实体是否为候选事件论元进行预测,得到候选答案预测结果,将上述目标训练文本的真实值作为标签来对上述待训练阅读理解模型进行训练,训练完成的待训练阅读理解模型为机器阅读理解模型。
[0010]根据本公开的实施例,上述待训练阅读理解模型的损失函数包含两部分:答案指示标签损失函数和事件论元抽取损失函数,所述事件论元抽取损失函数为第一交叉熵损失函数、第二交叉熵损失函数、第三交叉熵损失函数与各自对应权重之间的加权和;上述第一交叉熵损失函数、上述第二交叉熵损失函数和上述第三交叉熵损失函数各自对应的权重为预设参数且三者之和为1;上述第一交叉熵损失函数为进行开始位置识别预测对应的交叉熵损失函数;上述第二交叉熵损失函数为进行结束位置识别预测对应的交叉熵损失函数;上述第三交叉熵损失函数为进行开始位置和结束位置匹配预测对应的交叉熵损失函数;上述答案指示标签损失函数为进行答案指示标签识别对应的交叉熵损失函数。
[0011]第二方面,本公开的实施例提供了一种对文本中的事件论元进行抽取的装置。上述装置包括:事件类型检测模块、问题构造模块、文本生成模块、事件论元抽取模块和事件论元输出模块。上述事件类型检测模块,用于对待处理文本中包含的事件类型进行检测,得到目标事件类型。上述问题构造模块,用于根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题。上述文本生成模块,用于将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本。上述事件论元抽取模块,用于将上述目标文本的表示向量输入至机器阅读理解模型
中,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果。上述事件论元输出模块,用于根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元。
[0012]根据本公开的实施例,根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元,包括:当上述答案指示标签指示上述目标文本不存在答案时,上述答案预测结果中包含的事件论元预测实体被视为无效,输出不存在与上述目标事件类型匹配的事件论元的结果;当上述答案指示标签指示上述目标文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对文本中的事件论元进行抽取的方法,其特征在于,包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对所述待处理文本的论元抽取问题;将所述待处理文本和所述论元抽取问题进行拼接,得到拼接后的目标文本;将所述目标文本的表示向量输入至机器阅读理解模型中,所述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对所述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对所述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;以及根据所述答案预测结果和对应的答案指示标签,输出与所述目标事件类型对应匹配的事件论元。2.根据权利要求1所述的方法,其特征在于,所述第一层分类器包括三个分类器,分别为第一分类器、第二分类器和第三分类器,所述第一分类器用于预测所述目标文本中是否存在针对所述论元抽取问题的答案,得到的预测结果为所述答案指示标签,所述第二分类器用于预测所述表示向量对应的每个词素是否为答案的开始位置,所述第三分类器用于预测所述表示向量对应的每个词素是否为答案的结束位置。3.根据权利要求1所述的方法,其特征在于,所述目标文本的表示向量为字节对编码向量、分段向量和位置向量这三种向量进行拼接后的拼接向量形式。4.根据权利要求1所述的方法,其特征在于,所述目标论元角色的先验关联信息包括:所述目标论元角色对应的关键词描述信息、标注文档定义信息、事件先验信息;所述事件先验信息包括以下至少一种:实体类型、实体列举实例;所述根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对所述待处理文本的论元抽取问题,包括以下至少一种:采用在一已知事件中提问所述目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题;或者,采用在一已知事件中提问所述目标论元角色对应的标注文档定义信息的方式来构造得到论元抽取问题;或者,采用在一已知事件中提问所述目标论元角色对应的事件先验信息的方式来构造得到论元抽取问题;所述已知事件为所述目标事件类型对应的事件。5.根据权利要求1所述的方法,其特征在于,所述对待处理文本中包含的事件类型进行检测,得到目标事件类型,包括:将所述待处理文本的文本编码向量输入至预训练语言模型中,输出得到所述待处理文本对应的隐层向量;将所述隐层向量输入至条件随机场模型中,输出得到与所述待处理文本对应的最优文本标签序列,所述条件随机场模型用于建模标签之间的关系;以及根据所述最优文本标签序列,得到所述待处理文本的目标事件类型及所对应的事件触发词。
6.根据权利要求1所述的方法,其特征在于,所述阅读理解模型通过以下方式构建得到:对待训练文本中包含的事件类型进行检测,得到候选事件类型;根据所述候选事件类型和所述候选事件类型对应的候选论元角色的先验关联信息,构造得到针对所述待训练文本的训练用论元抽取问题;将所述待训练文本和所述训练用论元抽取问题进行拼接,得到拼接后的目标训练文本;将所述目标训练文本的表示向量输入至待训练阅读理解模型中,所述待训练阅读理解模型的第一层分类器同步对所述目标训练文本是否存在答案、...

【专利技术属性】
技术研发人员:陶建华杨国花马文杰张大伟何佳毅
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1