一种基于交叉去偏超参数优化的文本分类方法及系统技术方案

技术编号:39140434 阅读:11 留言:0更新日期:2023-10-23 14:54
本发明专利技术属于文本分类、机器学习、超参数优化技术领域,公开了一种基于交叉去偏超参数优化的文本分类方法及系统;所述文本分类方法包括:获取待分类的文本特征数据;将获取的文本特征数据,输入预先训练好的文本分类模型进行分类,获得文本分类结果;其中,所述预先训练好的文本分类模型的训练步骤包括:基于选定的文本分类模型结构,采用预获取的训练样本数据集,进行模型训练,达到预设收敛条件后,获得所述预先训练好的文本分类模型;其中,进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。本发明专利技术降低了文本数据偏差,可提升文本分类的预测精度。可提升文本分类的预测精度。可提升文本分类的预测精度。

【技术实现步骤摘要】
一种基于交叉去偏超参数优化的文本分类方法及系统


[0001]本专利技术属于文本分类、机器学习、超参数优化
,特别涉及一种基于交叉去偏超参数优化的文本分类方法及系统。

技术介绍

[0002]随着信息技术的不断发展,社会生产中的数据和资源日益增长;为了有效管理和使用这些大量信息,基于内容的信息检索和数据挖掘得到了广泛关注。文本分类是信息检索和文本挖掘的重要基础之一,其目的是对文本资源进行整理和归类,主要任务是根据文本内容确定其所属的预定义类别,这些类别是事先给定的标记集合。
[0003]文本分类在自然语言处理和内容信息过滤等领域都有重要的应用价值。目前,基于机器学习的文本分类方法得到了广泛关注,这些方法更注重分类器的自动挖掘、生成和动态优化能力;相比之前基于知识工程和专家系统的文本分类模式,基于机器学习的方法在灵活性和分类效果方面都获得了改进,因此成为文本分类相关领域研究和应用中的经典方法之一。然而,由于大量文本数据在收集获取过程中所展现出的种类多样、分布偏移、关系复杂及标注困难等特点,给文本分类带来了巨大挑战。具体示例性的,如在基于人口普查的收入预测中,现有预测模型需要预先设置超参数,而用于设置超参数的人口普查数据往往是有偏差的(解释性的,比如该部分数据均来自同一地区),这将会导致模型的收入预测结果不准确,最终影响有关部门和管理者制定相关经济政策。因此,在已有文本数据集上训练的模型需要精心调整超参数才能应用于实际场景中的文本分类任务中,这个过程往往是需要反复尝试的,造成了大量的时间和计算资源浪费,在处理某些特征维度较大的数据时尤其如此,甚至不能有效执行;另外,在调整超参数的过程中,需要使用收集的文本分类数据,这些数据往往是存在偏差的,最终导致分类结果的预测精度并不高。

技术实现思路

[0004]本专利技术的目的在于提供一种基于交叉去偏超参数优化的文本分类方法及系统,以解决上述存在的一个或多个技术问题。本专利技术提供的技术方案,从改善机器学习模型超参数的角度出发,降低了文本数据偏差,可提升文本分类的预测精度。
[0005]为达到上述目的,本专利技术采用以下技术方案:
[0006]本专利技术提供的一种基于交叉去偏超参数优化的文本分类方法,包括:
[0007]获取待分类的文本特征数据;
[0008]将获取的文本特征数据,输入预先训练好的文本分类模型进行分类,获得文本分类结果;
[0009]其中,所述预先训练好的文本分类模型的训练步骤包括:
[0010]基于选定的文本分类模型结构,采用预获取的训练样本数据集,进行模型训练,达到预设收敛条件后,获得所述预先训练好的文本分类模型;其中,进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。
[0011]本专利技术的进一步改进在于,所述选定的文本分类模型为逻辑回归模型、支撑向量机模型或多层感知机模型。
[0012]本专利技术的进一步改进在于,所述预设收敛条件为预先设定的两阶段交替次数。
[0013]本专利技术的进一步改进在于,所述进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式中,
[0014]所述超参数更新的步骤包括:
[0015]将预获取的训练样本数据集中的所有样本进行划分,构建获得多个训练子集和验证子集的组合;
[0016]基于多个训练子集和验证子集的组合,在多个元模型上使用各自训练子集进行多步迭代,并使用各自验证子集计算验证损失,并计算获得验证损失的平均值;
[0017]根据验证损失的平均值,利用反向传播算法计算验证损失的平均值关于超参数的梯度;根据得到的梯度,对现有超参数值进行更新,更新表达式为,
[0018][0019]式中,u表示此时的迭代次数,β表示步长,k表示子集的个数,θ表示超参数,表示在第u次迭代时的第i个元模型,表示第i个验证子集。
[0020]本专利技术的进一步改进在于,所述进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式中,
[0021]所述基于训练样本数据集的模型学习的步骤包括:
[0022]在超参数更新阶段得到更新的超参数的前提下,基于构建的目标函数并使用预获取的训练样本数据集中的所有样本,使用随机梯度下降算法迭代式训练模型,直至目标函数降至事先给定的范围内或迭代步数达到预先设定的数值;
[0023]其中,目标函数的表达式为,
[0024][0025]式中,w
*
表示最终的优化目标,是训练模型的损失函数,具体设计为交叉熵损失函数,表示全部可使用的文本数据。
[0026]本专利技术的进一步改进在于,
[0027]所述待分类的文本特征数据包括年龄、受教育程度、工作类别以及性别特征数据;
[0028]所述文本分类结果为个人收入是否超过预设阈值的预测分类结果。
[0029]本专利技术的进一步改进在于,
[0030]所述待分类的文本特征数据包括细胞团厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘附程度以及有丝分类程度特征数据;
[0031]所述文本分类结果为细胞是良性还是恶性的预测分类结果。
[0032]本专利技术的进一步改进在于,
[0033]所述待分类的文本特征数据包括现有账户状态、信用额度历史、工龄、个人婚姻情况、性别、年龄、目前信贷数量以及工作类型特征数据;
[0034]所述文本分类结果为人员具有良好或不良信用风险的预测分类结果。
[0035]本专利技术的进一步改进在于,获取待分类的文本特征数据的步骤包括:
[0036]对原始的待分类的文本数据进行清理和预处理,以减少噪声和提高质量;
[0037]将清理和预处理后的文本数据拆分成单个单词或标记的序列;
[0038]基于拆分获得的单个单词或标记的序列,将文本数据中的唯一单词或标记组成一个集合,构建获得词汇表;
[0039]基于词汇表,将文本数据转换为数值特征表示,获得待分类的文本特征数据。
[0040]本专利技术提供的一种基于交叉去偏超参数优化的文本分类系统,包括:
[0041]数据获取模块,用于获取待分类的文本特征数据;
[0042]预测分类模块,用于将获取的文本特征数据,输入预先训练好的文本分类模型进行分类,获得文本分类结果;
[0043]其中,所述预先训练好的文本分类模型的训练步骤包括:
[0044]基于选定的文本分类模型结构,采用预获取的训练样本数据集,进行模型训练,达到预设收敛条件后,获得所述预先训练好的文本分类模型;其中,进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。
[0045]与现有技术相比,本专利技术具有以下有益效果:
[0046]本专利技术提供的基于交叉去偏超参数优化的文本分类方法,从改善机器学习模型超参数的角度出发,降低了文本数据偏差,在没有使用额外数据的前提下,可提升文本分类的预测精度。具体解释性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于交叉去偏超参数优化的文本分类方法,其特征在于,包括:获取待分类的文本特征数据;将获取的文本特征数据,输入预先训练好的文本分类模型进行分类,获得文本分类结果;其中,所述预先训练好的文本分类模型的训练步骤包括:基于选定的文本分类模型结构,采用预获取的训练样本数据集,进行模型训练,达到预设收敛条件后,获得所述预先训练好的文本分类模型;其中,进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式。2.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法,其特征在于,所述选定的文本分类模型为逻辑回归模型、支撑向量机模型或多层感知机模型。3.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法,其特征在于,所述预设收敛条件为预先设定的两阶段交替次数。4.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法,其特征在于,所述进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式中,所述超参数更新的步骤包括:将预获取的训练样本数据集中的所有样本进行划分,构建获得多个训练子集和验证子集的组合;基于多个训练子集和验证子集的组合,在多个元模型上使用各自训练子集进行多步迭代,并使用各自验证子集计算验证损失,并计算获得验证损失的平均值;根据验证损失的平均值,利用反向传播算法计算验证损失的平均值关于超参数的梯度;根据得到的梯度,对现有超参数值进行更新,更新表达式为,式中,u表示此时的迭代次数,β表示步长,k表示子集的个数,θ表示超参数,表示在第u次迭代时的第i个元模型,表示第i个验证子集。5.根据权利要求1所述的一种基于交叉去偏超参数优化的文本分类方法,其特征在于,所述进行模型训练时采用超参数更新和基于训练样本数据集的模型学习两阶段交替进行的方式中,所述基于训练样本数据集的模型学习的步骤包括:在超参数更新阶段得到更新的超参数的前提下,基于构建的目标函数并使用预获取的训练样本数据集中的所有样本,使用随机梯度下降算法迭代式训练模型,直至目标函数降至事先给定的范围内或迭代步数达到预先设定...

【专利技术属性】
技术研发人员:束俊刘军民周宇博孟德宇
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1