【技术实现步骤摘要】
文本事件抽取方法、装置及计算机可读存储介质
[0001]本申请涉及自然语言处理领域,尤其涉及一种文本事件抽取方法、装置及计算机可读存储介质。
技术介绍
[0002]事件抽取技术是自然语言处理领域中一种经典的信息抽取任务,常用在金融、信息检索等领域。事件抽取技术可以从半结构化、非结构化信息中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据呈现给用户。
[0003]本申请的专利技术人在研究和实践过程中发现,现有技术中,基于Transformer的事件抽取任务通常需要大量的标注数据,但是由于企业预测事件的事件模版类型多、论元复杂程度高以及标注成本极高,且现有技术大多采用流水线传递的方式训练,这导致模块之间的信息交互和共享能力弱,知识共享困难,相同信息论元在不同事件中无法进行知识迁移,文本事件的抽取准确率低,适应性差。
技术实现思路
[0004]本申请实施例提供一种文本事件抽取方法、装置及计算机可读存储介质,可以提升文本的信息交互和信息共享的有效性,提高文本事件抽取的处理效率,适应性强。
[0005]第一方面,本申请实施例提供了一种文本事件抽取方法,该方法包括:
[0006]获取待检测文本并将上述待检测文本输入实体识别分类器,通过上述实体识别分类器获得上述待检测文本中包括的多个实体及其实体类型;
[0007]将上述待检测文本输入多个事件类型分类器,通过上述多个事件类型分类器获取上述待检测文本中包括的至少一个事件中各个事件的事件类型,其中,一个上述事件类型分类器用于分类 ...
【技术保护点】
【技术特征摘要】
1.一种文本事件抽取方法,其特征在于,所述方法包括:获取待检测文本并将所述待检测文本输入实体识别分类器,通过所述实体识别分类器获得所述待检测文本中包括的多个实体及其实体类型;将所述待检测文本输入多个事件类型分类器,通过所述多个事件类型分类器获取所述待检测文本中包括的至少一个事件中各个事件的事件类型,其中,一个所述事件类型分类器用于分类识别一种事件类型的事件;基于所述多个实体生成至少一个实体组合,通过多个组合抽取分类器获取所述至少一个实体组合中各个实体组合对应的事件类型,其中,一个所述组合抽取分类器用于分类识别一种事件类型,用于识别分类任一事件类型的实体组合的任一组合抽取分类器的参数由所述任一事件类型对应的事件类型分类器的参数得到;将所述各个实体组合输入所述各个实体组合对应的事件类型关联的论元分类器,通过任一事件类型对应的论元分类器获取所述任一事件类型的各个实体组合中的各个实体在任一类型事件中的论元角色类型,所述任一类型事件为所述任一事件类型包括的各个事件,以获得各个事件类型的各个实体组合中各个实体在所述各个事件类型包括的事件中的论元角色,其中,任一事件类型关联的论元分类器的参数由所述实体识别分类器的参数以及所述任一事件类型的事件关联的学习参数得到;将所述多个实体及其实体类型、所述各个事件的事件类型、所述各个实体组合对应的事件类型以及所述各个实体组合中各个实体在各个事件类型包括的事件中的论元角色确定为所述待检测文本的事件抽取数据。2.根据权利要求1所述的方法,其特征在于,所述将所述待检测文本输入实体识别分类器之前,所述方法还包括:获取训练样本文本,所述训练样本文本包括多个样本实体以及各个样本实体对应的实体类型标签;基于所述多个样本实体以及各个样本实体对应的实体类型标签训练得到所述实体识别分类器,其中,所述实体识别分类器用于识别任意输入文本中包含的实体及其实体类型。3.根据权利要求1所述的方法,其特征在于,所述将所述待检测文本输入多个事件类型分类器之前,所述方法还包括:获取多种事件类型对应的多组样本事件以及各组样本事件对应的事件类型标签,其中,一组样本事件中包括同一事件类型的多个样本事件,所述同一事件类型的多个样本事件用于训练一个事件类型分类器;基于所述各组样本事件类型对应的各组样本事件及其对应的事件类型标签训练得到用于识别分类各个事件的各个事件类型分类器,其中,任一事件类型对应的事件类型分类器用于基于任意输入文本输出所述输入文本中包括的事件的事件类型。4.根据权利要求1所述的方法,其特征在于,所述通过多个组合抽取分类器获取所述至少一个实体组合中各个实体组合对应的事件类型之前,所述方法还包括:获取多种事件类型对应的多组样本实体组合以及各组样本实体组合对应的事件类型标签,其中,一组样本实体组合中包括同一事件类型的多个样本实体组合,所述同一事件类型的多个样本实体组合用于训练一个组合抽取分类器;基于所述各组事件类型对应的各组样本实体组合及其对应的事件类型标签训练得到
分类识别各个事件类型的各个组合抽取分类器,其中,任一事件类型对应的组合抽取分类器用于基于任意输入的实体组合输出所述实体组合对应的事件类型。5.根据权利要求4所述的方法,其特征在于,所述基于所述各组事件类型对应的各组样本实体组合及其对应的事件类型标签训练得到针对各个所述事件类型的各个所述组合抽取分类器之前,所述方法还包括:获取所述任一事件类型对应的事件类型分类器的参数,并将所述任一事件类型对应的事件类型分类器的参数确定为用于识别分类所述任一事件类型的实体组合的任一组合抽取分类器的参数,以得到所述各个事件类型对应的组合抽取分类器的参数;基于所述各组事件类型对应的各组样本实体组合及其对应的事件类型标签训练得到针对各个所述事件类型的各个所述组合抽取分类器包括:基于所述各个事件类型对应的组合抽取分类器的参数和所述各组事件类型对应的各组样本实体组合及其对应的事件类型标签,训练得到针对各个所述事件类型对应的所述各个组合抽取分类器。6.根据权利要求2
‑
5任一项所述的方法,其特征在于,所述将所述各个实体组合输入所述各个实体组合对应的事件类型关联的论元分类器之前,所述方法还包括:获取多种事件类型对应的多组样本实体组合以及各组样本实体组合中的各个实体在各个事件类型包括的类型事件中的论元角色类型标签,其中,一组样本实体组合中包括同一事件类型的多个样本实体组合,一个事...
【专利技术属性】
技术研发人员:陈千奔,王国华,翁泽峰,李海,朱丽雯,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。