文本数据的事件抽取方法、装置、电子设备及可读介质制造方法及图纸

技术编号:31986383 阅读:25 留言:0更新日期:2022-01-20 02:08
本申请涉及一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质。该方法包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。本申请涉及的文本数据的事件抽取方法、装置、电子设备及计算机可读介质,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。提升信息抽取的准确度。提升信息抽取的准确度。

【技术实现步骤摘要】
文本数据的事件抽取方法、装置、电子设备及可读介质


[0001]本申请涉及计算机信息处理领域,具体而言,涉及一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]随着自然语言处理领域的发展以及网络信息的飞速增长,人们获取个性化信息的难度持续增加,事件抽取成为信息抽取领域的热门研究分支,其可以为知识库构建、问答以及语言理解任务提供有效的结构化信息。事件抽取的任务是从非结构化的文本中抽取出事件元素并组织成结构化的形式。事件抽取任务包括事件识别和事件论元抽取两个子任务。事件识别,即识别出文本中的事件触发词并对触发词进行分类;事件论元抽取,即从句子中抽取出事件触发词对应的事件论元并分类。
[0003]现有技术中,专利CN113761122A、CN113761936A、CN111897908A、CN113407660B、CN107122416B均从不同的角度描述了时间抽取方法,但是现有技术中的事件抽取方法所使用的池化层只能捕捉句子中最重要的信息,在考虑多事件句子时可能会遗漏有价值的信息,进而导致准确率、召回率较低。
[0004]因此,需要一种新的文本数据的事件抽取方法、装置、电子设备及计算机可读介质。
[0005]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]有鉴于此,本申请提供一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
[0007]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0008]根据本申请的一方面,提出一种文本数据的事件抽取方法,该方法包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。
[0009]在本申请的一种示例性实施例中,还包括:获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
[0010]在本申请的一种示例性实施例中,为所述多个句子向量样本集合中的多个单词样
本分配样本标签,包括:为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。
[0011]在本申请的一种示例性实施例中,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型,包括:带有样本标签的多个单词样本输入TextCNN文本分类模型;基于实体注意力机制生成注意力特征;基于动态池化层生成池化特征;基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。
[0012]在本申请的一种示例性实施例中,根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,包括: BERT模型基于双向Transformer结构对所述至少一个句子中的多个单词进行编码;根据编码将单词映射成词向量;根据多个单词和其对应的词编码、位置编码、句子序号生成句子向量集合。
[0013]在本申请的一种示例性实施例中,将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合,包括:将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征;动态划分池化区域并计算每个池化区域的池化特征;基于池化特征生成多个单词的标签概率矩阵;基于所述标签概率矩阵生成事件集合。
[0014]在本申请的一种示例性实施例中,将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征,包括:事件抽取模型中的卷积层在所述至少一个句子向量集合的垂直方向进行卷积计算,生成特征图;基于所述特征图生成所述至少一个句子向量集合的注意力特征。
[0015]在本申请的一种示例性实施例中,基于所述特征图生成所述至少一个句子向量集合的注意力特征,包括:基于所述特征图计算所述至少一个句子向量集合中每个单词对应的注意力权重;基于所述注意力权重对单词的词向量进行加权计算以生成单词的注意力特征。
[0016]在本申请的一种示例性实施例中,动态划分池化区域并计算每个池化区域的池化特征,包括:事件抽取模型中的池化层基于候选触发词和候选论元的位置动态划分池化区域;计算每个池化区域的池化特征。
[0017]在本申请的一种示例性实施例中,基于池化特征生成多个单词的标签概率矩阵,包括:事件抽取模型中的全连接层基于池化特征对所述至少一个句子向量进行全连接处理;根据处理结果生成单词对应于触发词标签和论元标签的概率;基于多个单词对应的触发词标签和论元标签的概率生成标签概率矩阵。
[0018]根据本申请的一方面,提出一种文本数据的事件抽取装置,该装置包括:数据模块,用于将文本数据中的至少一个句子依次输入BERT模型进行预训练;集合模块,用于根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;事件模块,用于将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。
[0019]在本申请的一种示例性实施例中,还包括:模型模块,用于获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签
的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
[0020]根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
[0021]根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
[0022]根据本申请的文本数据的事件抽取方法、装置、电子设备及计算机可读介质,通过将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合的方式,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的事件抽取方法,其特征在于,包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。2.如权利要求1所述的事件抽取方法,其特征在于,还包括:获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。3.如权利要求2所述的事件抽取方法,其特征在于,为所述多个句子向量样本集合中的多个单词样本分配样本标签,包括:为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。4.如权利要求2所述的事件抽取方法,其特征在于,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型,包括:将带有样本标签的多个单词样本输入TextCNN文本分类模型;基于实体注意力机制生成注意力特征;基于动态池化层生成池化特征;基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。5.如权利要求1所述的事件抽取方法,其特征在于,根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,包括:BERT模型基于双向Transformer结构对所述至少一个句子中的多个单词进行编码;根据编码将单词映射成词向量;根据多个单词和其对应的词编码、位置编码、句子序号生成句子向量集合。6.如权利要求1所述的事件抽取方法,其特征在于,将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合,包括:将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征;动态划分池化区域并计算每个池化区域的池化特征;基于池化特征生成多个单词的标签概率矩阵;基于所述标签概率矩阵生成事件集合。7.如权利要求6所述的事件抽取方法,其特征在于,将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征,包括:事...

【专利技术属性】
技术研发人员:李璐段荣成张凯秦瑶韩立立王清宇高欣洪仁峰黄威
申请(专利权)人:北京中船信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1