分类模型的训练方法及计算机可读存储介质技术

技术编号：32558804 阅读：21 留言：0更新日期：2022-03-05 12:01

本发明专利技术提供了一种分类模型的训练方法，包括：根据第一数据集训练初始分类模型以得到中间分类模型，其中，第一数据集为有标签数据的集合；利用中间分类模型提取训练数据集的特征向量，其中，训练数据集包括第一数据集和第二数据集，第二数据集为无标签数据的集合；根据训练数据集的特征向量构建最近数据图和最远数据图；根据最近数据图和最远数据图获取第二数据集的预测标签；以及根据第一数据集和带有预测标签的第二数据集训练中间分类模型以得到目标分类模型。此外，本发明专利技术还提供了一种计算机可读存储介质。本发明专利技术技术方案有效解决了有标签数据的数量少导致分类模型准确度不高的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型的训练方法及计算机可读存储介质

[0001]本专利技术涉及机器学习
，尤其涉及一种分类模型的训练方法及计算机可读存储介质。

技术介绍

[0002]深度学习模型在各个领域中已经取得了巨大的成就，特别是有监督学习算法在大量应用领域中取得了显著的效果。深度学习一般是从大量已标注的训练样本中学习一个模型用于给未见过的样本预测一个尽可能正确的标签。然而在许多实际应用场景中，人工标注大规模的训练样本需要耗费巨大的人力和物力。因此，许多研究聚焦于半监督学习，即在只有部分已标注样本和大量未标注样本的情况下学习的一个模型。

技术实现思路

[0003]本专利技术提供了一种分类模型的训练方法及计算机可读存储介质，用于解决有标签数据的数量少导致分类模型准确度不高的问题。
[0004]第一方面，本专利技术实施例提供一种分类模型的训练方法，所述分类模型的训练方法包括：根据第一数据集训练初始分类模型以得到中间分类模型，其中，所述第一数据集为有标签数据的集合；利用所述中间分类模型提取训练数据集的特征向量，其中，所述训练数据集包括所述第一数据集和第二数据集，所述第二数据集为无标签数据的集合；根据所述训练数据集的特征向量构建最近数据图和最远数据图，其中，所述最近数据图为在所述训练数据集中的每一数据与所述每一数据距离最近的多个其它数据的关系图，所述最远数据图为在所述训练数据集中的每一数据与所述每一数据距离最远的多个其它数据的关系图；根据所述最近数据图和所述最远数据图获取所述第二数据集的预测标签；以及根据所述第一数据集...

【技术保护点】

【技术特征摘要】
1.一种分类模型的训练方法，其特征在于，所述分类模型的训练方法包括：根据第一数据集训练初始分类模型以得到中间分类模型，其中，所述第一数据集为有标签数据的集合；利用所述中间分类模型提取训练数据集的特征向量，其中，所述训练数据集包括所述第一数据集和第二数据集，所述第二数据集为无标签数据的集合；根据所述训练数据集的特征向量构建最近数据图和最远数据图，其中，所述最近数据图为在所述训练数据集中的每一数据与所述每一数据距离最近的多个其它数据的关系图，所述最远数据图为在所述训练数据集中的每一数据与所述每一数据距离最远的多个其它数据的关系图；根据所述最近数据图和所述最远数据图获取所述第二数据集的预测标签；以及根据所述第一数据集和带有所述预测标签的第二数据集训练所述中间分类模型以得到目标分类模型。2.如权利要求1所述的分类模型的训练方法，其特征在于，根据所述最近数据图和所述最远数据图获取所述第二数据集的预测标签具体包括：根据所述最近数据图构建近邻相似度矩阵，其中，所述近邻相似度矩阵中的数值包括所述训练数据集中每一数据与所述每一数据距离最近的多个其它数据的相似度、所述每一数据与所述训练数据集中除距离最近的多个其它数据以外的剩余数据的相似度、所述训练数据集中同一数据的相似度；根据所述最远数据图构建疏远相似度矩阵，其中，所述疏远相似度矩阵中的数值包括所述训练数据集中每一数据与所述每一数据距离最远的多个其它数据的相似度、所述每一数据与所述训练数据集中除距离最远的多个其它数据以外的剩余数据的相似度、所述训练数据集中同一数据的相似度；以及根据所述训练数据集的初始标签矩阵、所述近邻相似度矩阵以及所述疏远相似度矩阵获取所述第二数据集的预测标签。3.如权利要求2所述的分类模型的训练方法，其特征在于，根据所述训练数据集的初始标签矩阵、所述近邻相似度矩阵以及所述疏远相似度矩阵获取所述第二数据集的预测标签具体包括：根据所述初始标签矩阵和所述近邻相似度矩阵计算得到近邻标签矩阵；根据所述初始标签矩阵和所述疏远相似度矩阵计算得到疏远标签矩阵；根据所述近邻标签矩阵和所述疏远标签矩阵计算得到目标标签矩阵；以及根据所述目标标签矩阵获取所述第二数据集中每一第二数据的预测标签。4. 如权利要求3所述的分类模型的训练方法，其特征在于，根据所述目标标签矩阵获取所述第二数据集中每一第二数据的预测标签具体包括：选取所述目标标签矩阵中与所述第二数据相对应的列中的最大数值为可信数值，其中，所述目标标签矩阵中每一列中的每一数值表示所...

【专利技术属性】
技术研发人员：刘国清，杨广，王启程，郑伟，贺硕，杨国武，
申请(专利权)人：深圳佑驾创新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人