一种事件抽取方法、装置及电子设备制造方法及图纸

技术编号:38728970 阅读:13 留言:0更新日期:2023-09-08 23:19
本申请提供一种事件抽取方法、装置及电子设备,该方法包括:使用神经网络模型获取事件提示向量,事件提示向量包括多组令牌嵌入向量,每组令牌嵌入向量表征一个事件类别;获取待处理文本,并根据事件提示向量对待处理文本进行事件分类,获得事件类别;从待处理文本中提取出全部实体元素;根据事件提示向量从全部实体元素中识别出事件类别对应的实体元素;对事件类别对应的实体元素进行元素角色识别,获得实体元素的角色类别。通过使用神经网络模型获取事件提示向量,并根据事件提示向量对待处理文本进行事件抽取,有效地使用事件提示向量实现了触发词的作用,从而提高了进行事件抽取的正确率。的正确率。的正确率。

【技术实现步骤摘要】
一种事件抽取方法、装置及电子设备


[0001]本申请涉及自然语言处理、提示学习和事件抽取的
,具体而言,涉及一种事件抽取方法、装置及电子设备。

技术介绍

[0002]事件抽取(Event Extraction,EE)是自然语言处理(Natural Language Processing,NLP)领域中一种经典的信息抽取(Information Extraction,IE)任务,主要是指从含有事件信息的文本数据中抽取出感兴趣的事件信息,并且将用自然语言表达事件以结构化的形式呈现,比如事件发生的时间、地点、参与角色以及与之相关的动作或者状态的改变等等。
[0003]目前,从文本内容中抽取出事件信息大都是采用基于触发词的事件抽取方法,这些触发词例如:新品发布、并购或者上市发布等等。然而,在具体的实践过程中发现,有些特殊场景根本没有触发词,例如在警情笔录场景中的文本数据是以对话形式存在的,对话形式的数据具有模糊化和口语化表述的特点,难以从对话形式的数据中识别出清楚的触发词。因此,对没有触发词的特殊场景中的数据进行事件抽取的正确率较低。

技术实现思路

[0004]本申请实施例的目的在于提供一种事件抽取方法、装置及电子设备,用于改善进行事件抽取的正确率较低的问题。
[0005]本申请实施例提供了一种事件抽取方法,包括:使用神经网络模型获取事件提示向量,事件提示向量包括多组令牌嵌入向量,每组令牌嵌入向量表征一个事件类别,每组令牌嵌入向量包括多个令牌嵌入向量;获取待处理文本,并根据事件提示向量对待处理文本进行事件分类,获得事件类别;从待处理文本中提取出全部实体元素;根据事件提示向量从全部实体元素中识别出事件类别对应的实体元素;对事件类别对应的实体元素进行元素角色识别,获得实体元素的角色类别,实体元素的角色类别用于生成事件记录表。在上述方案的实现过程中,通过使用神经网络模型获取事件提示向量,并根据事件提示向量对待处理文本进行事件抽取,改善了难以从对话形式的数据中识别出清楚的触发词的情况,有效地使用事件提示向量实现了触发词的作用,从而提高了进行事件抽取的正确率。
[0006]可选地,在本申请实施例中,使用神经网络模型获取事件提示向量,包括:获取预先构造的类别标签描述语句、类别标签解释定义语句、元素角色名称和事件关键词语;将类别标签描述语句、类别标签解释定义语句、元素角色名称和事件关键词语输入神经网络模型,获得神经网络模型输出的句子表示向量;根据句子表示向量中的多个令牌嵌入向量确定事件提示向量。在上述方案的实现过程中,通过硬提示(hard prompt)方式获取事件提示向量,即通过预先构造的类别标签描述语句、类别标签解释定义语句、元素角色名称和事件关键词语等数据输入模型,来获取模型输出的句子表示向量,并根据句子表示向量中的多个令牌嵌入向量确定事件提示向量,从而使得神经网络模型的学习更加彻底,因此提高了
进行事件抽取的正确率。
[0007]可选地,在本申请实施例中,根据句子表示向量中的多个令牌嵌入向量确定事件提示向量,包括:从句子表示向量中的多个令牌嵌入向量筛选出类别令牌嵌入向量,并将类别令牌嵌入向量确定为事件提示向量;或者,对句子表示向量中的多个令牌嵌入向量进行最大池化处理,获得事件提示向量;或者,对句子表示向量中的多个令牌嵌入向量进行均值池化处理,获得事件提示向量;或者,对句子表示向量中的多个令牌嵌入向量进行最小池化处理,获得事件提示向量。
[0008]可选地,在本申请实施例中,使用神经网络模型获取事件提示向量,包括:获取事件矩阵,事件矩阵是根据事件类别的总数量,以及每个事件类别的多个令牌嵌入向量构造的矩阵结构,并使用神经网络模型对矩阵结构进行学习获得的;针对每个事件类别,根据事件矩阵中的多个令牌嵌入向量确定事件提示向量。在上述方案的实现过程中,通过软提示(soft prompt)方式获取事件提示向量,即根据可学习的事件矩阵中的多个令牌嵌入向量来确定事件提升向量,从而使得神经网络模型的学习更加彻底,因此提高了进行事件抽取的正确率。
[0009]可选地,在本申请实施例中,事件矩阵包括:多个令牌嵌入向量;根据事件矩阵中的多个令牌嵌入向量确定事件提示向量,包括:对事件矩阵中的多个令牌嵌入向量进行最大池化处理,获得事件提示向量;或者,对事件矩阵中的多个令牌嵌入向量进行均值池化处理,获得事件提示向量;或者,对事件矩阵中的多个令牌嵌入向量进行最小池化处理,获得事件提示向量。
[0010]可选地,在本申请实施例中,根据事件提示向量对待处理文本进行事件分类,包括:获取待处理文本的文本表示向量,以及事件提示向量中的多组令牌嵌入向量的事件类别;针对所述多组令牌嵌入向量中的每组令牌嵌入向量,判断文本表示向量与该组令牌嵌入向量之间的相似度值是否大于预设阈值;若是,则将待处理文本的事件类别确定为该组令牌嵌入向量的事件类别。在上述方案的实现过程中,通过文本表示向量与该组令牌嵌入向量之间的相似度值来确定事件提示向量的事件类别,即根据事件提示向量实现事件分类过程,由于事件提示向量能够表征事件信息(包括事件类别信息),因此能够提高事件分类的正确率,从而提高了进行事件抽取的正确率。
[0011]可选地,在本申请实施例中,根据事件提示向量从全部实体元素中识别出事件类别对应的实体元素,包括:从待处理文本的每个文本语句中提取出全部实体元素,并将全部实体元素转换为多个元素向量;针对多个元素向量中的每个元素向量,判断该元素向量与事件提示向量中的一组令牌嵌入向量之间的相似度值是否大于相似度阈值;若是,则将该元素向量对应的实体元素确定为该组令牌嵌入向量的事件类别对应的实体元素。在上述方案的实现过程中,通过元素向量与事件提示向量中的一组令牌嵌入向量之间的相似度值来进行实体提取,即将该元素向量对应的实体元素确定为该组令牌嵌入向量的事件类别对应的实体元素,由于事件提示向量不仅能够表征事件信息,也能够表征具体事件中的实体元素信息,因此,能够提高实体提取的正确率,从而提高了进行事件抽取的正确率。
[0012]可选地,在本申请实施例中,在使用神经网络模型获取事件提示向量之前,还包括:获取样本文本和样本标签,样本标签包括:样本文本的事件类别标签、实体元素标签、事件实体关系标签和实体角色标签,事件类别标签是样本文本包括的事件类别集合,实体元
素标签是样本文本的样本语句中抽取出的实体元素集合,事件实体关系标签是实体元素与事件之间的对应关系集合,实体角色标签是实体元素在事件中的角色类别;以样本文本为训练数据,以样本文本的事件类别标签、实体元素标签、事件实体关系标签和实体角色标签为训练标签,对神经网络模型进行训练,获得神经网络模型。在上述方案的实现过程中,通过同时使用样本文本的事件类别标签、实体元素标签、事件实体关系标签和实体角色标签对神经网络模型进行训练,从而获得鲁棒性更好的神经网络模型,从而使用鲁棒性更好的神经网络模型能够提高进行事件抽取的正确率。
[0013]可选地,在本申请实施例中,对神经网络进行训练,包括:使用神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:使用神经网络模型获取事件提示向量,所述事件提示向量包括多组令牌嵌入向量,每组令牌嵌入向量表征一个事件类别,所述每组令牌嵌入向量包括多个令牌嵌入向量;获取待处理文本,并根据所述事件提示向量对所述待处理文本进行事件分类,获得事件类别;从所述待处理文本中提取出全部实体元素;根据所述事件提示向量从所述全部实体元素中识别出所述事件类别对应的实体元素;对所述事件类别对应的实体元素进行元素角色识别,获得所述实体元素的角色类别,所述实体元素的角色类别用于生成事件记录表。2.根据权利要求1所述的方法,其特征在于,所述使用神经网络模型获取事件提示向量,包括:获取预先构造的类别标签描述语句、类别标签解释定义语句、元素角色名称和事件关键词语;将所述类别标签描述语句、所述类别标签解释定义语句、所述元素角色名称和所述事件关键词语输入所述神经网络模型,获得所述神经网络模型输出的句子表示向量;根据所述句子表示向量中的多个令牌嵌入向量确定所述事件提示向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述句子表示向量中的多个令牌嵌入向量确定所述事件提示向量,包括:从所述句子表示向量中的多个令牌嵌入向量筛选出类别令牌嵌入向量,并将所述类别令牌嵌入向量确定为所述事件提示向量;或者,对所述句子表示向量中的多个令牌嵌入向量进行最大池化处理,获得所述事件提示向量;或者,对所述句子表示向量中的多个令牌嵌入向量进行均值池化处理,获得所述事件提示向量;或者,对所述句子表示向量中的多个令牌嵌入向量进行最小池化处理,获得所述事件提示向量。4.根据权利要求1所述的方法,其特征在于,所述使用神经网络模型获取事件提示向量,包括:获取事件矩阵,所述事件矩阵是根据所述事件类别的总数量,以及每个所述事件类别的多个令牌嵌入向量构造的矩阵结构,并使用所述神经网络模型对所述矩阵结构进行学习获得的;针对每个所述事件类别,根据所述事件矩阵中的多个令牌嵌入向量确定所述事件提示向量。5.根据权利要求4所述的方法,其特征在于,所述事件矩阵包括:多个令牌嵌入向量;所述根据所述事件矩阵中的多个令牌嵌入向量确定所述事件提示向量,包括:对所述事件矩阵中的多个令牌嵌入向量进行最大池化处理,获得所述事件提示向量;或者,对所述事件矩阵中的多个令牌嵌入向量进行均值池化处理,获得所述事件提示向量;或者,对所述事件矩阵中的多个令牌嵌入向量进行最小池化处理,获得所述事件提示
向量。6.根据权利要求1所述的方法,其特征在于,所述根据所述事件提示向量对所述待处理文本进行事件分类,包括:获取所述待处理文本的文本表示向量,以及所述事件提示向量中的多组令牌嵌入向量的事件类别;针对所述多组令牌嵌入向量中的每组令牌嵌入向量,判断所述文本表示向量与该组令牌嵌入向量之间的相似度值是否大于预设阈值;若是,则将所述待处理文本的事件类别确定为该组令牌嵌入向量的事...

【专利技术属性】
技术研发人员:李健铨穆晶晶胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1