样本生成方法、分类模型训练方法、识别方法及对应装置制造方法及图纸

技术编号：25088062 阅读：17 留言：0更新日期：2020-07-31 23:32

本发明专利技术公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置，在生成分类模型的样本时，首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征，以减少分类模型训练时的数据处理量，然后基于每个基础特征的特征贡献度，从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征，以进一步减少分类模型训练的数据处理量，并基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据，生成分类模型。因此，本发明专利技术不仅实现了数据的自动筛选，而且数据处理量小，从而大大节省了人力和时间，提高了分类模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
样本生成方法、分类模型训练方法、识别方法及对应装置
本专利技术涉及机器学习
，更具体的说，涉及一种样本生成方法、分类模型训练方法、识别方法及对应装置。
技术介绍
现有技术在对分类模型进行训练时，需要分类模型算法工程师对获取的原始数据集进行人工切分，得到训练集和验证集；然后由人工对训练集进行模型特征筛选和模型参数调整。因此，现有分类模型的训练方法需要耗费大量的人力和时间，导致分类模型的训练效率低。
技术实现思路
有鉴于此，本专利技术公开一种样本生成方法、分类模型训练方法、识别方法及对应装置，以实现基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征，以减少分类模型训练时的数据处理量，并进一步基于特征贡献度对多个基础特征进行筛选，以进一步减少分类模型训练的数据处理量，因此，本专利技术不仅实现了数据的自动筛选，而且数据处理量小，从而大大节省了人力和时间，提高了分类模型的训练效率。一种样本生成方法，包括：获取预设训练集中每个数据特征的特征指标和特征信息价值；基于所述特征指标和所述特征信息价值，按照预设筛选规则对所述预设训练集的数据特征进行筛选，得到所述预设训练集的多个基础特征；确定每个所述基础特征的特征贡献度；从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。可选的，所述预设训练集为对样本数据集按照预设切分策略得到，所述样本数据集中的每个数据包括：时间标签和数据特征；按...

【技术保护点】
1.一种样本生成方法，其特征在于，包括：/n获取预设训练集中每个数据特征的特征指标和特征信息价值；/n基于所述特征指标和所述特征信息价值，按照预设筛选规则对所述预设训练集的数据特征进行筛选，得到所述预设训练集的多个基础特征；/n确定每个所述基础特征的特征贡献度；/n从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。/n

【技术特征摘要】
1.一种样本生成方法，其特征在于，包括：
获取预设训练集中每个数据特征的特征指标和特征信息价值；
基于所述特征指标和所述特征信息价值，按照预设筛选规则对所述预设训练集的数据特征进行筛选，得到所述预设训练集的多个基础特征；
确定每个所述基础特征的特征贡献度；
从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。

2.根据权利要求1所述的样本生成方法，其特征在于，所述预设训练集为对样本数据集按照预设切分策略得到，所述样本数据集中的每个数据包括：时间标签和数据特征；
按照所述预设切分策略得到所述预设训练集的过程包括：
将所述样本数据集中的各个数据，基于时间标签按照时序进行排序，得到目标样本数据集；
将所述目标样本数据集中位于预设位置的样本数据集，按照预设比例随机拆分，将拆分结果作为所述预设训练集。

3.根据权利要求1所述的样本生成方法，其特征在于，所述确定每个所述基础特征的特征贡献度，具体包括：
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练，得到每个所述基础特征的特征贡献度，其中，所述第一预设训练模型包含有贡献度属性。

4.一种分类模型训练方法，其特征在于，包括：
将目标特征在预设训练集和预设验证集中对应的目标数据，输入至第二预设训练模型进行模型调参，生成分类模型，其中，所述目标数据包括：采用权利要求1～3任意一项所述的样本生成方法得到的目标特征。

5.根据权利要求4所述的分类模型训练方法，其特征在于，还包括：
将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型，得到所述预设测试集的评估结果，其中，所述评估结果包括：模型概率分和评估指标，所述预设测试集为：目标样本数据集中位于预设位置的数据，所述目标样本数据集为：样本数据集中的各个数据，基于时间标签按照时序进行排序得到的。

6.一种识别方法，其特征在于，包括：
获取待识别数据；
调用预设分类模型对所述待识别数据进行处理，所述预设分类模型为如权利要求4或5所述的分类模型训练方法生成的模型；
获取对所述待识别数据的识别结果。

7.一种样本生成装置，其特征在于，包括：
特征获取单元...

【专利技术属性】
技术研发人员：郭灿，徐庶，
申请(专利权)人：上海优扬新媒信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人