事件检测方法技术

技术编号:21089808 阅读:64 留言:0更新日期:2019-05-11 10:02
本发明专利技术提供一种事件检测方法。所述方法包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。本发明专利技术通过动态缩放负例样本的训练权重,能够解决现有事件检测模型中的类别不平等问题,且不需要引入任何额外的模型参数。

Event Detection Method

【技术实现步骤摘要】
事件检测方法
本专利技术涉及自然语言处理
,尤其涉及一种事件检测方法。
技术介绍
事件抽取是信息抽取中的一个关键任务,事件检测则是事件抽取中的一个关键步骤。事件检测的目标是从给定的文本中识别出特定事件类别的触发词。例如,给定句子“亨利受伤了”,一个事件检测系统应当能够识别出“受伤”是一个“伤害”类别事件的触发词。现有的神经网络模型通常将事件检测转化为一个词级别的分类问题,例如,在句子中“亨利受伤了”中,一个事件检测系统通过将上述句子中的三个词分别分类为“空”,“伤害事件”以及“空”,从而完成事件检测任务。这类的模型对先验信息的依赖较小,并且已经在事件检测领域取得了较大的进展。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下技术问题:现有的事件检测方法存在着显著的类别不平等问题,这种类别不平等主要体现在数据分布以及使用的评价指标上,具体来说,在数据分布上,被标记为“空”的样本数量显著性地多于被标记为特定类别事件样本的样本数量,在评价指标上,通常使用在事件类别上的F值作为评价标准,而这种评价标准中对于“空”类别上的正确预测结果常常被忽略。由此可见,由于上述的类别不平等问题的存在,使得现有的事件检测模型无法得到良好结果。
技术实现思路
本专利技术提供的事件检测方法,通过动态缩放负例样本的训练权重,能够解决现有事件检测模型中的类别不平等问题,且不需要引入任何额外的模型参数。第一方面,本专利技术提供一种事件检测方法,包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。可选地,所述使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用通过以下计算公式实现:其中,和分别是所述F值评价指标对正例样本的边际效用和所述F值评价指标对负例样本的边际效用,分别用于表示正例样本和负例样本对所述F值评价指标的相对重要性,β是所述F值评价指标中用于平衡准确率与召回率的参数,P和N分别表示训练数据中的正例样本总数量和负例样本总数量,TP和TN分别表示正确预测的正例样本数量和正确预测的负例样本数量,PE表示一个正例样本类别与另一个正例样本类别之间的预测错误。可选地,所述计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛包括:将负例样本的相对重要性与正例样本的相对重要性的比值作为负例样本在模型训练中的权重ωβ(θ),其中,所述负例样本在模型训练中的权重ωβ(θ)的计算公式如下:其中,所述θ为模型参数;计算基于权重缩放的交叉熵损失函数,使得模型参数θ朝着所述基于权重缩放的交叉熵损失函数的梯度方向前进,直至模型参数θ满足要求,其中,所述基于权重缩放的交叉熵损失函数的计算公式如下:其中,LAS(θ)为基于权重缩放的交叉熵损失函数,p(yi|xi;θ)表示样本xi属于样本类别yi的概率值。可选地,所述F值评价指标对正例样本和负例样本的边际效用的近似计算公式如下:其中,TPB(θ)和TNB(θ)分别是所述F值评价指标对正例样本的边际效用和所述F值评价指标对负例样本的边际效用。可选地,所述负例样本在模型训练中的权重ωβ(θ)的近似计算公式如下:其中,PB和NB分别表示正例样本总数量和负例样本总数量本专利技术实施例提供的事件检测方法,所述方法包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。与现有技术相比,本专利技术通过动态缩放负例样本的训练权重,能够解决现有事件检测模型中的类别不平等问题,且不需要引入任何额外的模型参数。附图说明图1为本专利技术一实施例事件检测方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种事件检测方法,如图1所示,所述方法包括:S11、使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用。S12、计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。本专利技术实施例提供的事件检测方法,所述方法包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。与现有技术相比,本专利技术通过动态缩放负例样本的训练权重,能够解决现有事件检测模型中的类别不平等问题,且不需要引入任何额外的模型参数。边际效用是一个经济学中的概念,代表的是每增加消费一单位的某种商品或者服务能够给总体效用带来的增加量。本专利技术借用这一概念,来计算模型每预测对一个正例类别样本以及负例类别样本给最终评价准则带来的提升。具体地,所述使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用通过以下计算公式实现:其中,和分别是所述F值评价指标对正例样本的边际效用和所述F值评价指标对负例样本的边际效用,分别用于表示正例样本和负例样本对所述F值评价指标的相对重要性,β是所述F值评价指标中用于平衡准确率与召回率的参数,P和N分别表示训练数据中的正例样本总数量和负例样本总数量,TP和TN分别表示正确预测的正例样本数量和正确预测的负例样本数量,PE表示一个正例样本类别与另一个正例样本类别之间的预测错误。进一步地,所述计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛包括:将负例样本的相对重要性与正例样本的相对重要性的比值作为负例样本在模型训练中的权重ωβ(θ),其中,所述负例样本在模型训练中的权重ωβ(θ)的计算公式如下:其中,所述θ为模型参数;计算基于权重缩放的交叉熵损失函数,使得模型参数θ朝着所述基于权重缩放的交叉熵损失函数的梯度方向前进,直至模型参数θ满足要求,其中,所述基于权重缩放的交叉熵损失函数的计算公式如下:其中,LAS(θ)为基于权重缩放的交叉熵损失函数,p(yi|xi;θ)表示样本xi属于样本类别yi的概率值。为了使得上述动态重要性缩放方法能适用于基于批处理的神经网络梯度优化算法,本专利技术使用如下的统计量来近似计算TP与TN,即所述F值评价指标对正例样本和负例样本的边际效用的近似计算公式如下:其中,TPB(θ)和TNB(θ)分别是所述F值评价指标对正例本文档来自技高网...

【技术保护点】
1.一种事件检测方法,其特征在于,包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。

【技术特征摘要】
1.一种事件检测方法,其特征在于,包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。2.根据权利要求1所述的方法,其特征在于,所述使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用通过以下计算公式实现:其中,和分别是所述F值评价指标对正例样本的边际效用和所述F值评价指标对负例样本的边际效用,分别用于表示正例样本和负例样本对所述F值评价指标的相对重要性,β是所述F值评价指标中用于平衡准确率与召回率的参数,P和N分别表示训练数据中的正例样本总数量和负例样本总数量,TP和TN分别表示正确预测的正例样本数量和正确预测的负例样本数量,PE表示一个正例样本类别与另一个正例样本类别之间的预测错误。3.根据权利要求2所述的方法,其特征在于,所述计算负例样本在事件检测模型...

【专利技术属性】
技术研发人员:林鸿宇韩先培孙乐陆垚杰
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1