一种基于交叉去偏超参数优化的文本分类方法及系统技术方案

技术编号：39140434 阅读：11 留言：0更新日期：2023-10-23 14:54

本发明专利技术属于文本分类、机器学习、超参数优化技术领域，公开了一种基于交叉去偏超参数优化的文本分类方法及系统；所述文本分类方法包括：获取待分类的文本特征数据；将获取的文本特征数据，输入预先训练好的文本分类模型进行分类，获得文本分类结果；其中，所述预先训练好的文本分类模型的训练步骤包括：基于选定的文本分类模型结构，采用预获取的训练样本数据集，进行模型训练，达到预设收敛条件后，获得所述预先训练好的文本分类模型；其中，进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。本发明专利技术降低了文本数据偏差，可提升文本分类的预测精度。可提升文本分类的预测精度。可提升文本分类的预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于交叉去偏超参数优化的文本分类方法及系统

[0001]本专利技术属于文本分类、机器学习、超参数优化
，特别涉及一种基于交叉去偏超参数优化的文本分类方法及系统。

技术介绍

[0002]随着信息技术的不断发展，社会生产中的数据和资源日益增长；为了有效管理和使用这些大量信息，基于内容的信息检索和数据挖掘得到了广泛关注。文本分类是信息检索和文本挖掘的重要基础之一，其目的是对文本资源进行整理和归类，主要任务是根据文本内容确定其所属的预定义类别，这些类别是事先给定的标记集合。
[0003]文本分类在自然语言处理和内容信息过滤等领域都有重要的应用价值。目前，基于机器学习的文本分类方法得到了广泛关注，这些方法更注重分类器的自动挖掘、生成和动态优化能力；相比之前基于知识工程和专家系统的文本分类模式，基于机器学习的方法在灵活性和分类效果方面都获得了改进，因此成为文本分类相关领域研究和应用中的经典方法之一。然而，由于大量文本数据在收集获取过程中所展现出的种类多样、分布偏移、关系复杂及标注困难等特点，给文本分类带来了巨大挑战。具体示例性的，如在基于人口普查的收入预测中，现有预测模型需要预先设置超参数，而用于设置超参数的人口普查数据往往是有偏差的(解释性的，比如该部分数据均来自同一地区)，这将会导致模型的收入预测结果不准确，最终影响有关部门和管理者制定相关经济政策。因此，在已有文本数据集上训练的模型需要精心调整超参数才能应用于实际场景中的文本分类任务中，这个过程往往是需要反复尝试的，造成了大量的时间和计算资源浪费，在处理某...

【技术保护点】

【技术特征摘要】
1.一种基于交叉去偏超参数优化的文本分类方法，其特征在于，包括：获取待分类的文本特征数据；将获取的文本特征数据，输入预先训练好的文本分类模型进行分类，获得文本分类结果；其中，所述预先训练好的文本分类模型的训练步骤包括：基于选定的文本分类模型结构，采用预获取的训练样本数据集，进行模型训练，达到预设收敛条件后，获得所述预先训练好的文本分类模型；其中，进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。2.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法，其特征在于，所述选定的文本分类模型为逻辑回归模型、支撑向量机模型或多层感知机模型。3.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法，其特征在于，所述预设收敛条件为预先设定的两阶段交替次数。4.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法，其特征在于，所述进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式中，所述超参数更新的步骤包括：将预获取的训练样本数据集中的所有样本进行划分，构建获得多个训练子集和验证子集的组合；基于多个训练子集和验证子集的组合，在多个元模型上使用各自训练子集进行多步迭代，并使用各自验证子集计算验证损失，并计算获得验证损失的平均值；根据验证损失的平均值，利用反向传播算法计算验证损失的平均值关于超参数的梯度；根据得到的梯度，对现有超参数值进行更新，更新表达式为，式中，u表示此时的迭代次数，β表示步长，k表示子集的个数，θ表示超参数，表示在第u次迭代时的第i个元模型，表示第i个验证子集。5.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法，其特征在于，所述进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式中，所述基于训练样本数据集的模型学习的步骤包括：在超参数更新阶段得到更新的超参数的前提下，基于构建的目标函数并使用预获取的训练样本数据集中的所有样本，使用随机梯度下降算法迭代式训练模型，直至目标函数降至事先给定的范围内或迭代步数达到预先设定...

【专利技术属性】
技术研发人员：束俊，刘军民，周宇博，孟德宇，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人