事件抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:34399995 阅读:31 留言:0更新日期:2022-08-03 21:38
本申请公开了一种事件抽取方法、装置、设备及存储介质,本申请预先配置了事件联合抽取模型,该模型同时融合了触发词识别任务、论元识别任务及论元关系识别任务三个子任务进行训练,三个子任务能够共享事件联合抽取模型的网络参数,使得训练得到的事件联合抽取模型在处理三个子任务时能够互相制约、促进,也即触发词识别过程会同时参考输入文本中的论元及论元关系的影响,论元识别过程也会同时参考输入文本中的触发词以及不同论元关系间的影响,论元关系识别过程也会同时参考输入文本中的触发词及论元的影响,三个子任务相辅相成,能够极大提升最终抽取的触发词、论元、论元类型及论元关系的准确度。及论元关系的准确度。及论元关系的准确度。

【技术实现步骤摘要】
事件抽取方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种事件抽取方法、装置、设备及存储介质。

技术介绍

[0002]事件抽取(Event Extraction,EE)是NLP领域中一种经典的信息抽取任务,在商业、舆情等领域的信息收集、信息检索、文档合成、信息问答等工作方面有着广泛应用。事件抽取任务即将用户感兴趣的事件类型及相关的参数信息从半结构化、非结构化数据中抽取出来。
[0003]传统的机器学习方法将事件抽取任务建模为多分类问题。如将事件抽取分为触发词识别及论元参数识别等任务,不同任务分为串行的多个阶段进行处理,如在触发词识别阶段,训练触发词识别模型;在论元参数识别阶段,训练论元识别模型。并且,论元参数识别是在触发词识别的基础上进行的。由于先进行触发词识别,再进行论元参数识别,触发词识别模型不能够考虑到论元参数的影响,从而对触发词的识别产生影响,并且,论元参数的识别又依赖触发词的识别结果,容易产生曝光误差,即在触发词识别错误的情况下,导致论元参数识别也出现错误。/>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:获取待进行事件抽取的输入文本;利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。2.根据权利要求1所述的方法,其特征在于,所述事件联合抽取模型被配置为:对输入文本进行编码,基于编码向量预测输入文本包含的触发词,以及,对触发词的编码向量及输入文本的编码向量进行组合,基于组合编码向量分别预测输入文本包含的论元参数、论元类型及各论元参数间的关系的内部状态表示。3.根据权利要求2所述的方法,其特征在于,所述事件联合抽取模型包括编码模块、编码组合模块、触发词抽取模块、论元抽取模块和论元关系识别模块;所述利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数以及各论元参数间的关系,包括:利用所述编码模块对输入文本进行编码,得到文本编码向量;利用所述触发词抽取模块基于所述文本编码向量,预测输入文本包含的触发词;利用所述编码组合模块对所述触发词抽取模块输出的每一组触发词进行编码,将一组触发词的编码向量与所述文本编码向量组合,得到组合编码向量;利用所述论元抽取模块基于所述组合编码向量预测输入文本包含的论元参数,以及每一论元参数的论元类型;利用所述论元关系识别模块基于所述组合编码向量预测输入文本包含各论元参数间的关系。4.根据权利要求1所述的方法,其特征在于,所述事件联合抽取模型的训练过程,包括:获取标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本;将所述训练文本输入事件联合抽取模型,得到模型预测的所述训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;基于模型预测的所述训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系,以及训练文本标注的所述触发词标签、论元标签、论元类型标签及论元关系标签,确定总损失函数,并按照所述总损失函数更新所述事件联合抽取模型的网络参数,直至达到设定训练结束条件。5.根据权利要求4所述的方法,其特征在于,所述训练文本标注的论元标签及论元类型标签包括:第一标签矩阵,所述第一标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,第一标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型。6.根据权利要求5所述的方法,其特征在于,利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的论元参数、各论元参数的论元类型的过程,包括:利用预配置的事件联合抽取模型处理所述输入文本,得到模型输出的第一标签矩阵;
基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。7.根据权利要求6所述的方法,其特征在于,所述事件联合抽取模型训练过程训练文本标注的第一标签矩阵中,第i行第j列的元素的值为1*num_arg的向量,num_arg为论元类型的类别数,向量中所属的论元类型对应位置的值为1,其余位置为0;则,所述基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型,包括:在所述模型输出的第一标签矩阵中查找非全0向量元素的位置,所述位置包括向量在第一标签矩阵中所处目标行数x及目标列数y;对于每一非全0向量元素,基于其位置确定所述输入文本中第x个分词至第y个分词之间的文本属于论元参数,以及,确定所述非全0向量元素中值为1的位置对应的目标论元类型,作为所述论元参数的论元类型。8.根据权利要求4所述的方法,其特征在于,所述训练文本标注的论元关系标签包括:第二标签矩阵,所述第二标签矩阵为n*n的矩阵,第二标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H

H、以第i、j个分词为尾的论元参数之间存在关联E

E,以及除去关系H

H、E

E外的其余关系O。9.根据权利要求8所述的方法,其特征在于,利用预配置的事件联合抽取模型处理所述输入文本,得到各论元参数间的关系的过程,包括:利用预配置的事件联合抽取模型处理所述输入文本,得到模型输出的第二标签矩阵;基于所述模型输出的第二标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系。10.根据权利要求9所述的方法,其特征在于,所述事件联合抽取模型训练过程训练文本标注的第二标签矩阵中,第i行第j列的元素的值为1*num_rel的向量,num_rel为论元关系的类别数3,向量中所属的论元关系类别对应位置的值为1,其余位置为0;则,所述基于所述模型输出的第二标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系,包括:在所述模型输出的第二标签矩阵中,对于第z行第h列的向量元素:确定其中值为1的位置对应的目标论元关系类别,作为所述输入文本中第z个分词与第h个分词之间的论元关系。11.根据权利要求1

10任一项所述的方法,其特征在于,基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,包括:以论元参数作为顶点,将存在关联关系的论元参数代表的顶点间连线,得到论元参数关系图;在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中;确定与所述目标顶点连接的邻居顶点,将所述邻居顶点添加到所述集合中,并将所述邻居顶点作为新的目标顶点,返回执行所述确定与所述目标顶点连接的邻居顶点的步骤,直至找不到新的邻居顶点为止;
判断所述论元参数关系图中是否还存在未添加到集合中的顶点,若否,结束,若是,返回执行在所述论元参数关系图中选择一个未添加到集合中的顶点...

【专利技术属性】
技术研发人员:聂芹芹吴飞王玉杰方四安
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1