当前位置: 首页 > 专利查询>苏州大学专利>正文

优化文本分类模型输出层激活函数的方法、设备和系统技术方案

技术编号:36439288 阅读:21 留言:0更新日期:2023-01-20 22:54
本发明专利技术涉及神经网络技术领域,公开一种优化文本分类模型输出层激活函数的方法、设备和系统,方法包括获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化模型输出的类别概率达到训练目标和测试目标一致的目的;训练神经网络模型,将测试集输入训练完成的神经网络模型得到预测结果;设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序;系统包括数据处理模块、建模模块、训练模块和预测模块。本发明专利技术可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。提升预测性能。提升预测性能。

【技术实现步骤摘要】
优化文本分类模型输出层激活函数的方法、设备和系统


[0001]本专利技术涉及神经网络
,尤其是指一种优化文本分类模型输出层激活函数的方法、设备和系统。

技术介绍

[0002]Softmax(软最大化)作为一种激活函数,被广泛应用在神经网络分类模型的最后一层。在训练时,人们通常使用Softmax函数将网络最后一层的隐藏层神经元归一化为其概率分布,并以独热向量(one

hot vector)为目标,使用交叉熵损失函数计算损失;在测试阶段使用模型预测概率最高的类别作为模型预测的结果,计算公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1,公式1中,是第类的输出分数,;是神经网络的最终输出,是第类的输出分数,;是自然常数,n是类别总数。
[0003]在训练阶段,Softmax函数的目标函数L为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2,公式2中,是目标类的输出概率。目标函数使模型的预测结果拟合one

hot向量,即让目标类的概率趋于1、非目标类的概率趋于0(训练阶段),但受限于其计算形式(见公式1),其目标类(非目标类)的计算结果并不能为1(0)。并且,测试阶段的目标为目标类别的概率比所有非目标类别大即可,训练阶段与测试阶段的目标不一致。因此,神经网络必然会不断地反向传播,更新训练参数,以达到前述结果,这就明显会放慢训练过程,并导致过拟合,模型鲁棒性能显著下降。同时,在训练过程中神经网络模型将所有非目标类别同等对待,这忽视了强的非目标类别会对模型表现产生强干扰的情况。
[0004]当前,有许多研究工作都致力于改进Softmax函数。当文本分类模型涉及很多类别时,一种高效的训练方式是控制输出维数,以降低计算复杂度。例如以稀疏Softmax(SparseSoftmax)为代表的研究探索了通过减少拟合的目标类个数来加速训练过程,以降低计算复杂度。Softmax通常缺乏对强负类的准确辨别,扩大类间距以提升模型的训练效果是一种有效的策略,例如大差距Softmax(Large

margin Softmax)在Softmax的基础上,就是通过扩大类间距以提升模型的训练效果。另外,由于金标数据中存在噪声,也有学者提出使用标签平滑(Label Smoothing)来防止神经网络模型过度拟合金标数据的方法。金标数据是人工标注的数据,也是希望模型能达到的输出目标,模型通过不断学习希望可以输出与人工标注一样准确的数据。
[0005]但是,现有方法也存在缺陷:稀疏Softmax虽然保留了较高概率的类别,但无法解决训练与测试阶段目标不一致的问题;Large

margin Softmax等相关技术的实现因为与角度有关,会使得目标函数变得过于复杂,且其与标签平滑技术都不会在学习过程中自动丢弃弱负类,当类别数很大时,会产生很大的计算成本;同时,现有方法所需的时间量级都较
大。

技术实现思路

[0006]为此,本专利技术所要解决的技术问题在于克服现有技术中的不足,提供一种优化文本分类模型输出层激活函数的方法、设备和系统,可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。
[0007]为解决上述技术问题,本专利技术提供了一种优化文本分类模型输出层激活函数的方法,包括:获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的;将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
[0008]在本专利技术的一个实施例中,所述编码器为语义表示模型。
[0009]在本专利技术的一个实施例中,所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:,式中,表示目标类的概率,表示非目标类的概率,表示所述差距阈值。
[0010]在本专利技术的一个实施例中,所述差距阈值的取值范围为0

1,通过网格搜索法搜索得到。
[0011]在本专利技术的一个实施例中,所述通过引入差距阈值优化模型输出的类别概率,具体为:根据所述差距阈值建立筛选参数,使用所述筛选参数筛掉弱样本以优化模型输出的类别概率。
[0012]在本专利技术的一个实施例中,所述筛选参数为:。
[0013]在本专利技术的一个实施例中,使用所述筛选参数筛掉弱样本以优化模型输出的类别概率时,模型输出的类别概率为:;式中,表示第i类的输出概率,表示第类的输出分数,是自然常数,n是类别总数。
[0014]在本专利技术的一个实施例中,将所述测试集输入训练完成的神经网络模型得到预测结果,具体为:将所述测试集输入所述编码器,通过分类器将所述编码器的输出映射到类别维
度,计算每个类别的输出概率,选择所有类别中输出概率的最大值及对应的索引,将索引对应的类别作为预测结果。
[0015]本专利技术还提供了一种优化文本分类模型输出层激活函数的设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的优化文本分类模型输出层激活函数的方法的步骤。
[0016]本专利技术还提供了一种优化文本分类模型输出层激活函数的系统,包括数据处理模块、建模模块、训练模块和预测模块,所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块;所述建模模块建立包括编码器和输出层的神经网络模型,所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型;所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
[0017]本专利技术的上述技术方案相比现有技术具有以下优点:本专利技术通过建立差距阈值,可以使目标类的概率超过非目标类、且两者的概率差不会高于设定的差距阈值,从而避免模型过拟合,使训练阶段与测试阶段的目标相符;通过引入差距阈值优化模型输出的类别概率,可以在训练过程中筛除弱负类、增强对强负类的准确辨别,不仅加速了训练过程,而且提升了模型的预测性能。
附图说明
[0018]为了使本专利技术的内容更容易被清楚的理解,下面根据本专利技术的具体实施例并结合附图,对本专利技术作进一步详细的说明,其中:图1是本专利技术的流程图,图2是本专利技术方法的分步流程图,图3是本专利技术实施例中方法的分步流程图。
具体实施方式
[0019]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0020]参照图1

图2所示,本专利技术公开了一种优化文本分类模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化文本分类模型输出层激活函数的方法,其特征在于,包括:获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的;将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。2.根据权利要求1所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述编码器为语义表示模型。3.根据权利要求1所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:,式中,表示目标类的概率,表示非目标类的概率,表示所述差距阈值。4.根据权利要求3所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述差距阈值的取值范围为0

1,通过网格搜索法搜索得到。5.根据权利要求3所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述通过引入差距阈值优化模型输出的类别概率,具体为:根据所述差距阈值建立筛选参数,使用所述筛选参数筛掉弱样本以优化模型输出的类别概率。6.根据权利要求5所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述筛选参数为:。7.根据权利要求5所述的优化文本分类模型输出层激活函数的方法,其特征在于:使用所述筛选参数筛掉弱样本以优...

【专利技术属性】
技术研发人员:曹自强耿磊吕奇
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利