对文本中的事件论元进行抽取的方法和电子设备技术

技术编号：32978816 阅读：25 留言：0更新日期：2022-04-09 12:01

本公开涉及一种对文本中的事件论元进行抽取的方法和电子设备，该方法包括：对待处理文本中包含的事件类型进行检测，得到目标事件类型；根据该目标事件类型及对应的目标论元角色的先验关联信息，构造得到论元抽取问题；将待处理文本和论元抽取问题进行拼接，得到目标文本；将该目标文本的表示向量输入至机器阅读理解模型中，该模型包括两层依序设置的分类器，第一层分类器同步对该目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测，得到携带有答案指示标签的位置预测结果；第二层分类器对开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测，得到答案预测结果；根据该答案预测结果和对应的标签，输出事件论元。输出事件论元。输出事件论元。

全部详细技术资料下载

【技术实现步骤摘要】
对文本中的事件论元进行抽取的方法和电子设备

[0001]本公开涉及文本数据处理领域和人工智能
，尤其涉及一种对文本中的事件论元进行抽取的方法和电子设备。

技术介绍

[0002]在面对海量信息时，如何从海量的文本数据中挖掘有用信息成为重要问题。许多信息一般是以事件的形式存在，而事件抽取就是从大量非结构化文本中抽取特定类型的事件触发词以及相应的事件论元并以结构化的形式呈现出来，这是信息抽取领域中的一个重要的任务。
[0003]在实现本公开构思的过程中，发现相关技术中至少存在如下技术问题：在事件论元抽取时存在一个论元角色对应多个论元实体和论元为嵌套实体的场景，目前的方法无法对上述两种场景做到论元的精确提取；级联式抽取先对候选论元进行抽取，再对候选论元分类，存在误差传递的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种对文本中的事件论元进行抽取的方法和电子设备。
[0005]第一方面，本公开的实施例提供了一种对文本中的事件论元进行抽取的方法。上述方法包括：对待处理文本中包含的事件类型进行检测，得到目标事件类型；根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息，构造得到针对上述待处理文本的论元抽取问题；将上述待处理文本和上述论元抽取问题进行拼接，得到拼接后的目标文本；将上述目标文本的表示向量输入至机器阅读理解模型中，上述机器阅读理解模型包括两层依序设置的分类器，第一层分类器同步对上述目标文本是否存在答案、对...

【技术保护点】

【技术特征摘要】
1.一种对文本中的事件论元进行抽取的方法，其特征在于，包括：对待处理文本中包含的事件类型进行检测，得到目标事件类型；根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息，构造得到针对所述待处理文本的论元抽取问题；将所述待处理文本和所述论元抽取问题进行拼接，得到拼接后的目标文本；将所述目标文本的表示向量输入至机器阅读理解模型中，所述机器阅读理解模型包括两层依序设置的分类器，第一层分类器同步对所述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测，得到携带有答案指示标签的位置预测结果；第二层分类器对所述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测，得到答案预测结果；以及根据所述答案预测结果和对应的答案指示标签，输出与所述目标事件类型对应匹配的事件论元。2.根据权利要求1所述的方法，其特征在于，所述第一层分类器包括三个分类器，分别为第一分类器、第二分类器和第三分类器，所述第一分类器用于预测所述目标文本中是否存在针对所述论元抽取问题的答案，得到的预测结果为所述答案指示标签，所述第二分类器用于预测所述表示向量对应的每个词素是否为答案的开始位置，所述第三分类器用于预测所述表示向量对应的每个词素是否为答案的结束位置。3.根据权利要求1所述的方法，其特征在于，所述目标文本的表示向量为字节对编码向量、分段向量和位置向量这三种向量进行拼接后的拼接向量形式。4.根据权利要求1所述的方法，其特征在于，所述目标论元角色的先验关联信息包括：所述目标论元角色对应的关键词描述信息、标注文档定义信息、事件先验信息；所述事件先验信息包括以下至少一种：实体类型、实体列举实例；所述根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息，构造得到针对所述待处理文本的论元抽取问题，包括以下至少一种：采用在一已知事件中提问所述目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题；或者，采用在一已知事件中提问所述目标论元角色对应的标注文档定义信息的方式来构造得到论元抽取问题；或者，采用在一已知事件中提问所述目标论元角色对应的事件先验信息的方式来构造得到论元抽取问题；所述已知事件为所述目标事件类型对应的事件。5.根据权利要求1所述的方法，其特征在于，所述对待处理文本中包含的事件类型进行检测，得到目标事件类型，包括：将所述待处理文本的文本编码向量输入至预训练语言模型中，输出得到所述待处理文本对应的隐层向量；将所述隐层向量输入至条件随机场模型中，输出得到与所述待处理文本对应的最优文本标签序列，所述条件随机场模型用于建模标签之间的关系；以及根据所述最优文本标签序列，得到所述待处理文本的目标事件类型及所对应的事件触发词。
6.根据权利要求1所述的方法，其特征在于，所述阅读理解模型通过以下方式构建得到：对待训练文本中包含的事件类型进行检测，得到候选事件类型；根据所述候选事件类型和所述候选事件类型对应的候选论元角色的先验关联信息，构造得到针对所述待训练文本的训练用论元抽取问题；将所述待训练文本和所述训练用论元抽取问题进行拼接，得到拼接后的目标训练文本；将所述目标训练文本的表示向量输入至待训练阅读理解模型中，所述待训练阅读理解模型的第一层分类器同步对所述目标训练文本是否存在答案、...

【专利技术属性】
技术研发人员：陶建华，杨国花，马文杰，张大伟，何佳毅，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人