一种事件识别模型的训练方法和装置制造方法及图纸

技术编号:20944558 阅读:24 留言:0更新日期:2019-04-24 02:25
本发明专利技术实施例公开了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。该方法包括:从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。

A Training Method and Device for Event Recognition Model

The embodiment of the present invention discloses an event recognition model training method and device for realizing event recognition model training independent of trigger words and improving the training efficiency of event recognition model. The method includes: obtaining the target event type and the first text sample from the training database, and inputting the target event type and the first text sample into the initial event recognition model. The event recognition model is equipped with a attention layer; and obtaining the attention of each word in the first text sample relative to the target event type through the attention layer. Degree information; according to the attention information of each word in the first text sample relative to the target event type, the correlation result between the first text sample and the target event type is output through the event recognition model; and according to the correlation result output by the event recognition model, the event recognition model is trained with a preset loss function.

【技术实现步骤摘要】
一种事件识别模型的训练方法和装置
本专利技术涉及计算机
,尤其涉及一种事件识别模型的训练方法和装置。
技术介绍
事件是一个复杂的概念,对事件进行准确的定义是一个非常困难的问题,学术界和工业界至今为止没有公认的定义。在不同领域的研究中,事件具有不同的定义及表示。在面向新闻文本进行事件识别的场景下,采用自动内容抽取(AutomaticContentExtraction,ACE)为事件给出如下的定义:事件是发生在某个特定时间(时间段)、某个特定地域范围内,由一个或多个角色参与的由一个或多个动作构成的事情或状态的改变。事件识别的方法可以分为基于模式匹配的方法和基于机器学习的方法。其中,基于模式匹配的方法是指对某种类型事件的识别和抽取是在预设模式的指导下进行的,采用各种模式匹配的算法将待识别的事件和已知的模式进行匹配。模式匹配的过程就是事件识别和抽取的过程。基于模式匹配的方法具有可移植性差、召回率低的缺陷。现有技术还提供基于机器学习的方法用于事件识别,但是需要通过对触发词的识别来完成。例如,假设需要对文本“潘长江恩师李春明去世”进行事件识别,通过机器学习的方法识别到“去世”是一个死亡事件的触发词,因此判定该文本描述了一个死亡事件。现有技术中需要将触发词的识别建模为词分类的问题。具体地,将给定文本中的每个词作为候选的触发词,并对其进行分类,目标类别需要是预先定义好的事件类型。现有技术中对事件的识别依赖事件的触发词,因此在模型训练过程中标注数据时,不仅要标注出每个文本的事件类型,还要标注出相应的触发词。由于触发词是文本中最能指示某一事件发生的词,人工挑选触发词的难度大,尤其对于长文本来说,要标注出触发词的难度更大。这大大增加了数据的标注成本,降低了事件识别模型的训练效率。
技术实现思路
本专利技术实施例提供了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。本专利技术实施例提供以下技术方案:一方面,本专利技术实施例提供一种事件识别模型的训练方法,包括:从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。另一方面,本专利技术实施例还提供一种事件识别模型的训练装置,包括:模型输入模块,用于从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;关注度获取模块,用于通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;模型输出模块,用于根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;模型训练模块,用于根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。在前述方面中,事件识别模型的训练装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤,详见前述对前述一方面以及各种可能的实现方式中的说明。另一方面,本专利技术实施例提供一种事件识别模型的训练装置,该事件识别模型的训练装置包括:处理器、存储器;存储器用于存储指令;处理器用于执行存储器中的指令,使得事件识别模型的训练装置执行如前述一方面中任一项的方法。另一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。在本专利技术实施例中,首先从训练数据库中获取到目标事件类型和第一文本样本,并将目标事件类型和第一文本样本输入到初始的事件识别模型中,事件识别模型中配置有注意力层,然后通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,接下来根据第一文本样本中每个词相对于目标事件类型的关注度信息,通过事件识别模型输出第一文本样本与目标事件类型的关联结果,最后根据事件识别模型输出的关联结果,采用预设的损失函数对事件识别模型进行训练。由于本专利技术实施例中可以通过注意力层获取第一文本样本中每个词相对于目标事件类型的关注度信息,因此通过每个词相对于目标事件类型的关注度信息可以衡量出第一文本样本中每个词对目标事件类型的重要程度,本专利技术实施例相对于现有技术不依赖触发词的事件识别模型训练,省去了人工挑选触发词的步骤,因此提高了事件识别模型的训练效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种事件识别模型的训练方法的流程方框示意图;图2为本专利技术实施例提供的事件识别模型的训练流程示意图;图3为本专利技术实施例提供的基于LSTM实现的事件识别模型的网络结构示意图;图4-a为本专利技术实施例提供的一种事件识别模型的训练装置的组成结构示意图;图4-b为本专利技术实施例提供的模型输入模块的组成结构示意图;图4-c为本专利技术实施例提供的命名实体识别子模块的组成结构示意图;图4-d为本专利技术实施例提供的关注度获取模块的组成结构示意图;图4-e为本专利技术实施例提供的模型输出模块的组成结构示意图;图5为本专利技术实施例提供的事件识别模型的训练方法应用于终端的组成结构示意图;图6为本专利技术实施例提供的事件识别模型的训练方法应用于服务器的组成结构示意图。具体实施方式本专利技术实施例提供了一种事件识别模型的训练方法和装置,用于实现不依赖触发词的事件识别模型训练,提高事件识别模型的训练效率。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。本专利技术事件识别模型的训练方法的一个实施例,具体可以应用于对事件识别模型的训练场景中,该事件识别模型可以是基于机器学习算法完成的网络模型,该事件识别模型可以从文本中识别出是否包含目标事件类型。例如,本专利技术实施例提供的事件识别模型可以采用神经网络算法。事件识别模型的输出可以是一个二分类结果,例如该二分类结果可以包括:进行0-1分类得到的结果,其中,0表示文本不包含相应的目标事件类型,1表示文本包含相应的目标事件类型。现有技术中事件识别模型在训练时,不仅要标本文档来自技高网
...

【技术保护点】
1.一种事件识别模型的训练方法,其特征在于,包括:从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。

【技术特征摘要】
1.一种事件识别模型的训练方法,其特征在于,包括:从训练数据库中获取到目标事件类型和第一文本样本,并将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,所述事件识别模型中配置有注意力层;通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息;根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果;根据所述事件识别模型输出的所述关联结果,采用预设的损失函数对所述事件识别模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,包括:根据所述目标事件类型查询词向量表,得到第一事件类型向量和第二事件类型向量,所述第一事件类型向量为局部信息建模向量,所述第二事件类型向量为全局信息建模向量;从所述第一文本样本中识别出每个词对应的命名实体类型,并将所述每个词以及所述每个词对应的命名实体类型转换为词样本向量;将所述第一事件类型向量、所述第二事件类型向量和所述词样本向量输入到所述事件识别模型中。3.根据权利要求2所述的方法,其特征在于,所述从所述第一文本样本中识别出每个词对应的命名实体类型,并将所述每个词以及所述每个词对应的命名实体类型转换为词样本向量,包括:对所述第一文本样本进行分词处理从而得到词序列,所述词序列包括多个词;对所述词序列中的每个词分别进行命名实体识别,得到所述每个词对应的命名实体类型;将所述每个词转换为相应的词向量,并将所述每个词对应的命名实体类型转换为相应的命名实体类型向量;将所述每个词对应的词向量和命名实体类型向量拼接在一起,得到所述词样本向量。4.根据权利要求2所述的方法,其特征在于,所述通过所述注意力层获取所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,包括:通过所述事件识别模型对所述词样本向量进行表示信息提取,得到所述第一文本样本中每个词对应的词表示向量;通过所述注意力层获取所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本样本中每个词相对于所述目标事件类型的关注度信息,通过所述事件识别模型输出所述第一文本样本与所述目标事件类型的关联结果,包括:按照所述第一文本样本中每个词对应的词表示向量和所述第一事件类型向量之间的关注度信息,对所述第一文本样本中每个词对应的词表示向量进行加权平均计算,得到所述第一文本样本对应的文本表示向量;根据所述第一文本样本对应的文本表示向量和所述第一事件类型向量获取所述第一文本样本的局部信息;根据所述第一文本样本中最后一个输入所述事件识别模型的词表示向量和所述第二事件类型向量获取所述第一文本样本的全局信息;对所述第一文本样本的局部信息和所述第一文本样本的全局信息进行加权平均计算,得到所述第一文本样本与所述目标事件类型的关联结果。6.根据权利要求4所述的方法,其特征在于,所述通过所述事件识别模型对所述词样本向量进行表示信息提取,得到所述第一文本样本中每个词对应的词表示向量,包括:通过所述事件识别模型中提取到所述第一文本样本中第t-1个词对应的词表示向量之后,将所述第一文本样本中第t个词对应的词样本向量输入到所述事件识别模型中,所述t为大于或等于1的正整数;根据所述第一文本样本中第t-1个词对应的词表示向量,通过所述事件识别模型对所述第一文本样本中第t个词对应的词样本向量进行表示信息提取,得到所述第一文本样本中第t个词对应的词表示向量。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将所述目标事件类型和所述第一文本样本输入到初始的事件识别模型中,包括:当所述训练数据库中提取到N个所述目标事件类型时,获取N个二元组,其中,每个二元组包括:N个所述目标事件类型的一个目标事件类型和所述第一文本样本,所述N的取值为大于或等于2的正整数;将所述N个二元组分别输入到所述事件识别模型中。8.一种事件识别模型的训练装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:刘树林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1