【技术实现步骤摘要】
分类模型训练方法、装置、终端设备和可读存储介质
本专利技术涉及数据挖掘领域,尤其涉及一种分类模型训练方法、装置、终端设备和可读存储介质。
技术介绍
分类模型的训练过程所利用的训练样本一般通过人为标记,要想获取到分类效果良好的分类模型,不仅需要大量带有标记的训练样本,还需要准确的对各个训练样本进行标记。目前,对训练样本的标记一般依赖于专业技术人员手工标记,或者专业技术人员利用统计分析工具对训练样本进行标记,标记过程繁琐,不仅浪费较长的标记时间和人力资源,而且人工标记主观性较强,错误率也较高,将影响分类模型训练的速度以及分类模型分类的准确性。
技术实现思路
鉴于上述问题,一种分类模型训练方法、装置、终端设备和可读存储介质。本专利技术的一个实施例提出一种分类模型训练方法,该方法包括:对训练数据集进行预处理以获取标准训练数据集;将所述标准训练数据集中的标准训练样本分为预设数目个类别;对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;将每一类别中的各个标准训练 ...
【技术保护点】
1.一种分类模型训练方法,其特征在于,该方法包括:/n对训练数据集进行预处理以获取标准训练数据集;/n将所述标准训练数据集中的标准训练样本分为预设数目个类别;/n对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;/n将每一类别中的各个标准训练样本标记对应的类别的标签;/n利用带有标签的标准训练样本训练分类模型。/n
【技术特征摘要】
1.一种分类模型训练方法,其特征在于,该方法包括:
对训练数据集进行预处理以获取标准训练数据集;
将所述标准训练数据集中的标准训练样本分为预设数目个类别;
对各个类别进行均衡处理以使各个类别中的标准训练样本的数目保持一致;
将每一类别中的各个标准训练样本标记对应的类别的标签;
利用带有标签的标准训练样本训练分类模型。
2.根据权利要求1所述的分类模型训练方法,其特征在于,所述对训练数据集进行预处理以获取标准训练数据集,包括:
利用量化公式对所述训练数据集中各个属性分值进行量化处理;
对进行量化处理后的训练数据集进行标准化处理以获取训练方阵;
对训练方阵进行特征值分解以用特征向量和特征值表示训练方阵;
选取所述特征值大于预设阈值的特征向量;
根据特征值大于预设阈值的特征向量对训练方阵中的属性重新打分以获取特征数据样本集;
对特征数据样本集中的各个新属性分值进行归一化处理以获取标准训练数据集。
3.根据权利要求2所述的分类模型训练方法,其特征在于,所述量化公式如下:
代表所述训练数据集中第k个样本的第m个属性的量化分值,代表所述训练数据集中第k个样本的第m个属性的属性分值,代表所述训练数据集中第m个属性的最小属性分值,代表所述训练数据集中第m个属性的最大属性分值。
4.根据权利要求2所述的分类模型训练方法,其特征在于,根据以下公式对训练方阵中的属性重新打分:
代表所述训练方阵中第k个样本第p个新属性分值,代表所述训练方阵中第k个样本第m个属性的量化分值,代表第p个特征值对应的特征向量的第m个元素值,所述训练方阵为M*M。
5.根据权利要求1所述的分类模型训练方法,其特征在于,所述将所述标准训练数据集中的标准训练样本分为预设数目个类别,包括:
随机选取所述预设数目个标准训练样本作为聚类中心;
分别计算所述各个标准训练样本与所述预设数目个聚类中心之间的距离;
将每一标准训练样本分配到与之距离最小的聚类中心对应的类别中;
根据每一类别中的标准训练样本计算对应的...
【专利技术属性】
技术研发人员:衣杨,李强,梁达安,赵福利,林倩青,周晓聪,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。