样本生成方法、分类模型训练方法、识别方法及对应装置制造方法及图纸

技术编号:25088062 阅读:17 留言:0更新日期:2020-07-31 23:32
本发明专利技术公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置,在生成分类模型的样本时,首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,以进一步减少分类模型训练的数据处理量,并基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。因此,本发明专利技术不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

【技术实现步骤摘要】
样本生成方法、分类模型训练方法、识别方法及对应装置
本专利技术涉及机器学习
,更具体的说,涉及一种样本生成方法、分类模型训练方法、识别方法及对应装置。
技术介绍
现有技术在对分类模型进行训练时,需要分类模型算法工程师对获取的原始数据集进行人工切分,得到训练集和验证集;然后由人工对训练集进行模型特征筛选和模型参数调整。因此,现有分类模型的训练方法需要耗费大量的人力和时间,导致分类模型的训练效率低。
技术实现思路
有鉴于此,本专利技术公开一种样本生成方法、分类模型训练方法、识别方法及对应装置,以实现基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本专利技术不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。一种样本生成方法,包括:获取预设训练集中每个数据特征的特征指标和特征信息价值;基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;确定每个所述基础特征的特征贡献度;从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。可选的,所述预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征;按照所述预设切分策略得到所述预设训练集的过程包括:将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集;将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。可选的,所述确定每个所述基础特征的特征贡献度,具体包括:采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。一种分类模型训练方法,包括:将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用上述所述的样本生成方法得到的目标特征。可选的,还包括:将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。一种识别方法,包括:获取待识别数据;调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为上述所述的分类模型训练方法生成的模型;获取对所述待识别数据的识别结果。一种样本生成装置,包括:特征获取单元,用于获取预设训练集中每个数据特征的特征指标和特征信息价值;基础特征筛选单元,用于基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;确定单元,用于确定每个所述基础特征的特征贡献度;目标特征筛选单元,用于从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。可选的,还包括:切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;所述切分单元具体用于:将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特征;将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。可选的,所述确定单元具体用于:采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。一种分类模型训练装置,包括:模型生成单元,用于将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用上述所述的样本生成装置得到的目标特征。可选的,还包括:评估单元,用于将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。一种识别装置,包括:数据获取单元,用于获取待识别数据;模型调用单元,用于调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为上述所述的分类模型训练装置生成的模型;识别单元,用于获取对所述待识别数据的识别结果。从上述的技术方案可知,本专利技术公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本专利技术首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本专利技术不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。图1为本专利技术实施例公开的一种样本生成方法流程图;图2为本专利技术实施例公开的一种识别方法流程图;图3为本专利技术实施例公开的一种样本生成装置的结构示意图;图4为本专利技术实施例公开的一种识别装置的结构示意图。具体实施方式在对分类模型进行训练时,面对采用人工训练分类模型需要耗费大量的人力和时间的问题,在进行数据特征筛选时,有人提出了依赖模型本身的单一特征进行数据特征筛选的方法,例如,VAR(Variance,方差阈值)方法,具体为:统计样本的方差,将方差超过VAR的样本进行剔除,得到用于分类模本文档来自技高网...

【技术保护点】
1.一种样本生成方法,其特征在于,包括:/n获取预设训练集中每个数据特征的特征指标和特征信息价值;/n基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;/n确定每个所述基础特征的特征贡献度;/n从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。/n

【技术特征摘要】
1.一种样本生成方法,其特征在于,包括:
获取预设训练集中每个数据特征的特征指标和特征信息价值;
基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定每个所述基础特征的特征贡献度;
从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。


2.根据权利要求1所述的样本生成方法,其特征在于,所述预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征;
按照所述预设切分策略得到所述预设训练集的过程包括:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。


3.根据权利要求1所述的样本生成方法,其特征在于,所述确定每个所述基础特征的特征贡献度,具体包括:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。


4.一种分类模型训练方法,其特征在于,包括:
将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用权利要求1~3任意一项所述的样本生成方法得到的目标特征。


5.根据权利要求4所述的分类模型训练方法,其特征在于,还包括:
将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。


6.一种识别方法,其特征在于,包括:
获取待识别数据;
调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为如权利要求4或5所述的分类模型训练方法生成的模型;
获取对所述待识别数据的识别结果。


7.一种样本生成装置,其特征在于,包括:
特征获取单元...

【专利技术属性】
技术研发人员:郭灿徐庶
申请(专利权)人:上海优扬新媒信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1