本发明专利技术实施例公开了一种分类模型训练方法、装置、终端设备和可读存储介质,该方法包括:对训练数据集进行预处理以获取标准训练数据集;将所述标准训练数据集中的标准训练样本分为预设数目个类别;对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;将每一类别中的各个标准训练样本标记对应的类别的标签;利用带有标签的标准训练样本训练分类模型。本发明专利技术通过对标准训练样本进行分类,自动为各个标准训练样本添加标签,不仅减少样本标记的时间和人力资源,也可以解决人工标记主观性较强,错误率高的问题。
【技术实现步骤摘要】
分类模型训练方法、装置、终端设备和可读存储介质
本专利技术涉及数据挖掘领域,尤其涉及一种分类模型训练方法、装置、终端设备和可读存储介质。
技术介绍
分类模型的训练过程所利用的训练样本一般通过人为标记,要想获取到分类效果良好的分类模型,不仅需要大量带有标记的训练样本,还需要准确的对各个训练样本进行标记。目前,对训练样本的标记一般依赖于专业技术人员手工标记,或者专业技术人员利用统计分析工具对训练样本进行标记,标记过程繁琐,不仅浪费较长的标记时间和人力资源,而且人工标记主观性较强,错误率也较高,将影响分类模型训练的速度以及分类模型分类的准确性。
技术实现思路
鉴于上述问题,一种分类模型训练方法、装置、终端设备和可读存储介质。本专利技术的一个实施例提出一种分类模型训练方法,该方法包括:对训练数据集进行预处理以获取标准训练数据集;将所述标准训练数据集中的标准训练样本分为预设数目个类别;对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;将每一类别中的各个标准训练样本标记对应的类别的标签;利用带有标签的标准训练样本训练分类模型。上述实施例所述的分类模型训练方法,所述对训练数据集进行预处理以获取标准训练数据集,包括:利用量化公式对所述训练数据集中各个属性分值进行量化处理;对进行量化处理后的训练数据集进行标准化处理以获取训练方阵;对训练方阵进行特征值分解以用特征向量和特征值表示训练方阵;选取所述特征值大于预设阈值的特征向量;根据特征值大于预设阈值的特征向量对训练方阵中的属性重新打分以获取特征数据样本集;对特征数据样本集中的各个新属性分值进行归一化处理以获取标准训练数据集。上述实施例所述的分类模型训练方法,所述量化公式如下:代表所述训练数据集中第k个样本的第m个属性的量化分值,代表所述训练数据集中第k个样本的第m个属性的属性分值,代表所述训练数据集中第m个属性的最小属性分值,代表所述训练数据集中第m个属性的最大属性分值。上述实施例所述的分类模型训练方法,根据以下公式对训练方阵中的属性重新打分:代表所述训练方阵中第k个样本第p个新属性分值,代表所述训练方阵中第k个样本第m个属性的量化分值,代表第p个特征值对应的特征向量的第m个元素值,所述训练方阵为M*M。上述实施例所述的分类模型训练方法,所述将所述标准训练数据集中的标准训练样本分为预设数目个类别,包括:随机选取所述预设数目个标准训练样本作为聚类中心;分别计算所述各个标准训练样本与所述预设数目个聚类中心之间的距离;将每一标准训练样本分配到与之距离最小的聚类中心对应的类别中;根据每一类别中的标准训练样本计算对应的样本均值;若某一类的样本均值与该类的聚类中心之间的距离大于等于预设距离阈值,则以各个类别的样本均值作为新的聚类中心重新执行分类操作,直至所述预设数目个类别的样本均值与对应类别的聚类中心之间的距离小于所述预设距离阈值。上述实施例所述的分类模型训练方法,所述对各个类别进行均衡处理以使各个类别中的数据样本的数目保持一致,包括:获取各个类别中标准训练样本的数目;以包含标准训练样本的数目最多的类别为基准,利用上采样方法补充其他类别。上述实施例所述的分类模型训练方法,所述利用带有标签的标准训练样本训练分类模型,包括:将所述带有标签的标准训练样本分为n组;依次将n组中的第i组所包括的标准训练样本作为测试样本集,其余组中的标准训练样本作为训练样本集;第i次训练完成后,根据第i组测试样本集测试分类模型,计算第i次测试的误差;n次训练完成后,计算n次测试的误差均值;若所述误差均值大于等于预设的误差阈值,则调整分类模型的网络结构和/或相应参数值;利用带有标签的标准训练样本继续训练调整后的分类模型,直至所述误差均值小于所述误差阈值。本专利技术的另一个实施例提出一种分类模型训练装置,该装置包括:数据预处理模块,用于对训练数据集进行预处理以获取标准训练数据集;样本分类模块,用于将所述标准训练数据集中的标准训练样本分为预设数目个类别;均衡处理模块,用于对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;类别标记模块,用于将每一类别中的各个标准训练样本标记对应的类别的标签;模型训练模块,用于利用带有标签的标准训练样本训练分类模型。上述实施例涉及一种终端设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述终端设备能执行上述实施例所述的分类模型训练方法。上述实施例涉及一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行上述实施例所述的分类模型训练方法。本专利技术所公开的分类模型训练方法,对训练数据集进行预处理以获取标准训练数据集;将所述标准训练数据集中的标准训练样本分为预设数目个类别;对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;将每一类别中的各个标准训练样本标记对应的类别的标签;利用带有标签的标准训练样本训练分类模型。本专利技术通过对标准训练样本进行分类,自动为各个标准训练样本添加标签,不仅减少样本标记的时间和人力资源,也可以解决人工标记主观性较强,错误率高的问题,将有效提高分类模型训练的速度以及分类模型分类的准确性。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对本专利技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。图1示出了本专利技术实施例提供的一种分类模型训练方法的流程示意图;图2示出了本专利技术实施例提供的一种对训练数据集进行预处理的流程示意图;图3示出了本专利技术实施例提供的一种分类操作的流程示意图;图4示出了本专利技术实施例提供的一种分类模型训练过程的流程示意图;图5示出了本专利技术实施例提供的一种分类模型训练装置的结构示意图。主要元件符号说明:1-分类模型训练装置;100-数据预处理模块;200-样本分类模块;300-均衡处理模块;400-类别标记模块;500-模型训练模块。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在下文中,可在本专利技术的各种实施例中使用的本文档来自技高网...
【技术保护点】
1.一种分类模型训练方法,其特征在于,该方法包括:/n对训练数据集进行预处理以获取标准训练数据集;/n将所述标准训练数据集中的标准训练样本分为预设数目个类别;/n对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;/n将每一类别中的各个标准训练样本标记对应的类别的标签;/n利用带有标签的标准训练样本训练分类模型。/n
【技术特征摘要】
1.一种分类模型训练方法,其特征在于,该方法包括:
对训练数据集进行预处理以获取标准训练数据集;
将所述标准训练数据集中的标准训练样本分为预设数目个类别;
对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;
将每一类别中的各个标准训练样本标记对应的类别的标签;
利用带有标签的标准训练样本训练分类模型。
2.根据权利要求1所述的分类模型训练方法,其特征在于,所述对训练数据集进行预处理以获取标准训练数据集,包括:
利用量化公式对所述训练数据集中各个属性分值进行量化处理;
对进行量化处理后的训练数据集进行标准化处理以获取训练方阵;
对训练方阵进行特征值分解以用特征向量和特征值表示训练方阵;
选取所述特征值大于预设阈值的特征向量;
根据特征值大于预设阈值的特征向量对训练方阵中的属性重新打分以获取特征数据样本集;
对特征数据样本集中的各个新属性分值进行归一化处理以获取标准训练数据集。
3.根据权利要求2所述的分类模型训练方法,其特征在于,所述量化公式如下:
代表所述训练数据集中第k个样本的第m个属性的量化分值,代表所述训练数据集中第k个样本的第m个属性的属性分值,代表所述训练数据集中第m个属性的最小属性分值,代表所述训练数据集中第m个属性的最大属性分值。
4.根据权利要求2所述的分类模型训练方法,其特征在于,根据以下公式对训练方阵中的属性重新打分:
代表所述训练方阵中第k个样本第p个新属性分值,代表所述训练方阵中第k个样本第m个属性的量化分值,代表第p个特征值对应的特征向量的第m个元素值,所述训练方阵为M*M。
5.根据权利要求1所述的分类模型训练方法,其特征在于,所述将所述标准训练数据集中的标准训练样本分为预设数目个类别,包括:
随机选取所述预设数目个标准训练样本作为聚类中心;
分别计算所述各个标准训练样本与所述预设数目个聚类中心之间的距离;
将每一标准训练样本分配到与之距离最小的聚类中心对应的类别中;
根据每一类别中的标准训练样本计算对应的...
【专利技术属性】
技术研发人员:衣杨,李强,梁达安,赵福利,林倩青,周晓聪,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。