一种事件抽取方法、系统及计算机可读存储介质技术方案

技术编号：32817801 阅读：31 留言：0更新日期：2022-03-26 20:14

本发明专利技术涉及自然语言技术领域，特别涉及一种事件抽取方法、系统及计算机可读存储介质，一种事件抽取方法，包括以下步骤：输入原始文本并判断原始文本中是否包含预设事件类型；若是，获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本；对事件文本进行处理以得到最终的结构化事件文本。本发明专利技术先判断输入的原始文本是否包含有预设事件类型，若包含有再进行事件抽取以提高准确性；区别于传统生成式事件抽取方法中人为设计任务提示的方法，事件类型特有前缀将该设计参数化并且能够通过训练自动优化，从而避免了人为设计会造成事件抽取结果质量不高的问题。设计会造成事件抽取结果质量不高的问题。设计会造成事件抽取结果质量不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种事件抽取方法、系统及计算机可读存储介质

[0001]本专利技术涉及自然语言处理
，其特别涉及一种事件抽取方法、系统及计算机可读存储介质。

技术介绍

[0002]事件识别和抽取研究如何从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来，包括其发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。一个事件蕴含事件触发词、事件参与元素等多个元素。现有事件抽取方法主要分为两类：抽取式事件抽取方法和生成式事件抽取方法。抽取式方法将事件抽取看作抽取问题，将事件抽取分为许多不同的子任务，如事件触发词抽取、实体抽取、事件元素抽取等；之后设计流水线式解码框架或多任务联合学习框架来完成事件的抽取。流水线式抽取方法通常采用序列化抽取方式，前序任务的错误结果会对后序任务造成影响，形成误差传递。而多任务联合学习框架需要人为根据任务、数据集等特性设计不同的子任务间信息共享模式，架构设计不灵活且容易造成次优问题。
[0003]为了解决上述问题，研究者近年来提出了生成式事件抽取方法，该类方法将事件抽取转化为序列生成任...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法，其特征在于：包括以下步骤：输入原始文本并判断原始文本中是否包含预设事件类型；若是，获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本；对事件文本进行处理以得到最终的结构化事件文本。2.如权利要求1所述的事件抽取方法，其特征在于：输入原始文本并判断原始文本中是否包含预设事件类型的具体步骤为：输入原始文本；对原始文本进行语义向量化编码；取出CLS部分向量，接入全连接层，进行二分类；判断该原始文本中是否包含预设的事件类型。3.如权利要求1所述的事件抽取方法，其特征在于：所述事件抽取模型至少包括BART
‑
large预训练语言模型。4.如权利要求2所述的事件抽取方法，其特征在于：获取事件类型特有前缀的具体步骤为：预设初始事件类型特有前缀的参数；通过对参数进行运算得到事件类型的预测概率分布；将预测概率分布与实际概率分布的交叉熵作为损失函数，通过损失反向传播，计算各参数对应的梯度，并基于该梯度对初始事件类型特有前缀的参数进行更新；更新后的参数即为自动优化得到的最终的事件类型特有前缀。5.如权利要求4所述的事件抽取方法，其特征在于：将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本包括以下步骤：基于所述事件...

【专利技术属性】
技术研发人员：马永亮，石戈，周明，
申请(专利权)人：北京澜舟科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人