优化文本分类模型输出层激活函数的方法、设备和系统技术方案

技术编号：36439288 阅读：21 留言：0更新日期：2023-01-20 22:54

本发明专利技术涉及神经网络技术领域，公开一种优化文本分类模型输出层激活函数的方法、设备和系统，方法包括获取训练集和测试集并进行数据预处理，建立包括编码器和输出层的神经网络模型；设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化模型输出的类别概率达到训练目标和测试目标一致的目的；训练神经网络模型，将测试集输入训练完成的神经网络模型得到预测结果；设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序；系统包括数据处理模块、建模模块、训练模块和预测模块。本发明专利技术可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。提升预测性能。提升预测性能。

全部详细技术资料下载

【技术实现步骤摘要】
优化文本分类模型输出层激活函数的方法、设备和系统

[0001]本专利技术涉及神经网络
，尤其是指一种优化文本分类模型输出层激活函数的方法、设备和系统。

技术介绍

[0002]Softmax（软最大化）作为一种激活函数，被广泛应用在神经网络分类模型的最后一层。在训练时，人们通常使用Softmax函数将网络最后一层的隐藏层神经元归一化为其概率分布，并以独热向量(one
‑
hot vector)为目标，使用交叉熵损失函数计算损失；在测试阶段使用模型预测概率最高的类别作为模型预测的结果，计算公式为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1，公式1中，是第类的输出分数，；是神经网络的最终输出，是第类的输出分数，；是自然常数，n是类别总数。
[0003]在训练阶段，Softmax函数的目标函数L为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2，公式2中，是目标类的输出概率。目标函数使模型的预测结果拟合one
‑
hot向量，即让目标类的概率趋于1、非目标类的概率趋于0（训练阶段），但受限于其计算形式（见公式1），其目标类（非目标类）的计算结果并不能为1（0）。并且，测试阶段的目标为目标类别的概率比所有非目标类别大即可，训练阶段与测试阶段的目标不一致。因此，神经网络必然会不断地反向传播，更新训练参数，以达到前述结果，这就明显会放慢训练过程，并导致过拟合，模型鲁棒性能显著下降。同时，在训练过程中神经网络模型将所有非目标类别同等对待，这忽视了强的非目标类别...

【技术保护点】

【技术特征摘要】
1.一种优化文本分类模型输出层激活函数的方法，其特征在于，包括：获取训练集和测试集并进行数据预处理，建立包括编码器和输出层的神经网络模型；设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的；将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型，将所述测试集输入训练完成的神经网络模型得到预测结果。2.根据权利要求1所述的优化文本分类模型输出层激活函数的方法，其特征在于：所述编码器为语义表示模型。3.根据权利要求1所述的优化文本分类模型输出层激活函数的方法，其特征在于：所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，具体为：，式中，表示目标类的概率，表示非目标类的概率，表示所述差距阈值。4.根据权利要求3所述的优化文本分类模型输出层激活函数的方法，其特征在于：所述差距阈值的取值范围为0
‑
1，通过网格搜索法搜索得到。5.根据权利要求3所述的优化文本分类模型输出层激活函数的方法，其特征在于：所述通过引入差距阈值优化模型输出的类别概率，具体为：根据所述差距阈值建立筛选参数，使用所述筛选参数筛掉弱样本以优化模型输出的类别概率。6.根据权利要求5所述的优化文本分类模型输出层激活函数的方法，其特征在于：所述筛选参数为：。7.根据权利要求5所述的优化文本分类模型输出层激活函数的方法，其特征在于：使用所述筛选参数筛掉弱样本以优...

【专利技术属性】
技术研发人员：曹自强，耿磊，吕奇，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人