【技术实现步骤摘要】
用于实现模型训练的方法及装置、计算机存储介质
本申请涉及机器学习领域,特别涉及一种用于实现模型训练的方法及装置、计算机存储介质。
技术介绍
机器学习,是指让机器基于训练样本训练出机器学习模型,使机器学习模型对训练样本之外的数据具有类别预测能力。在机器学习的具体实践任务中,选择一组具有代表性的特征组成特征集来构建机器学习模型是非常重要的问题。在进行特征选择时,通常采用有标签样本数据,选择与类别相关性强的特征集来训练机器学习模型。其中,标签用于标识样本数据的类别。在机器学习模型发生劣化后,需要对机器学习模型进行重训练,以保证机器学习模型的性能。目前对机器学习模型进行重训练的过程包括:获取大量样本数据进行标签标注;采用特征选择算法基于有标签样本数据,计算当前特征集中各个特征与类别的相关程度;基于专家经验根据各个特征与类别的相关程度确定当前特征集中的失效特征;在去除当前特征集中的失效特征后,再基于专家经验从特征库中选择合适的新特征加入特征集,得到新的特征集;最后利用新的特征集重新训练并评估机器学习模型,直至模型评估结果达到预 ...
【技术保护点】
1.一种用于实现模型训练的方法,其特征在于,所述方法包括:/n当机器学习模型发生劣化时,获取第一特征集的有效性信息,所述第一特征集中包括用来训练得到所述机器学习模型的多个特征,所述有效性信息包括所述第一特征集中每个特征的有效性评分,特征的有效性评分与所述特征跟所述第一特征集中的其它特征之间的相关性负相关;/n基于所述有效性信息,确定所述第一特征集中的失效特征;/n生成不包括所述失效特征的第二特征集,所述第二特征集用于对所述机器学习模型进行重训练。/n
【技术特征摘要】
1.一种用于实现模型训练的方法,其特征在于,所述方法包括:
当机器学习模型发生劣化时,获取第一特征集的有效性信息,所述第一特征集中包括用来训练得到所述机器学习模型的多个特征,所述有效性信息包括所述第一特征集中每个特征的有效性评分,特征的有效性评分与所述特征跟所述第一特征集中的其它特征之间的相关性负相关;
基于所述有效性信息,确定所述第一特征集中的失效特征;
生成不包括所述失效特征的第二特征集,所述第二特征集用于对所述机器学习模型进行重训练。
2.根据权利要求1所述的方法,其特征在于,所述特征的有效性评分是根据所述特征相对于所述第一特征集中的所有其它特征的互信息得到的。
3.根据权利要求1或2所述的方法,其特征在于,所述失效特征包括所述第一特征集中有效性评分低于评分阈值的特征。
4.根据权利要求3所述的方法,其特征在于,所述评分阈值基于所述第一特征集中所有特征的有效性评分的均值、所述第一特征集中所有特征的有效性评分的方差以及所述第一特征集中所有特征的有效性评分的标准差中的一个或多个计算得到。
5.根据权利要求1至4任一所述的方法,其特征在于,在所述获取第一特征集的有效性信息之后,所述方法还包括:
基于所述有效性信息,生成所述第一特征集的有效性评分列表,所述有效性评分列表包括所述第一特征集中每个特征的特征标识以及所述每个特征的有效性指示信息,所述有效性指示信息包括有效性评分和有效性标记中的至少一个,所述有效性标记包括有效特征标记或失效特征标记;
将所述有效性评分列表发送给管理设备。
6.根据权利要求5所述的方法,其特征在于,所述有效性指示信息包括有效性评分和有效性标记,所述方法还包括:
接收所述管理设备发送的更新后的有效性评分列表;
所述基于所述有效性信息,确定所述第一特征集中的失效特征,包括:
将所述更新后的有效性评分列表中,有效性标记为失效特征标记的特征确定为所述第一特征集中的失效特征。
7.根据权利要求1至6任一所述的方法,其特征在于,在所述获取第一特征集的有效性信息之前,所述方法还包括:
获取目标数据,所述机器学习模型对所述目标数据的预测结果的置信度低于置信度阈值;
所述获取第一特征集的有效性信息,包括:
基于所述目标数据确定所述第一特征集的有效性信息。
8.根据权利要求1至7任一所述的方法,其特征在于,所述生成不包括所述失效特征的第二特征集,包括:
确定样本数据的模式特点,所述模式特点表征所述样本数据的分布特征和统计特征中的至少一个,所述样本数据是在所述机器学习模型发生劣化后采集的;
生成第三特征集,所述第三特征集包括所述样本数据的模式特点对应的特征;
删除所述第三特征集中的所述失效特征,得到所述第二特征集。
9.根据权利要求8所述的方法,其特征在于,在所述生成第三特征集之后,所述方法还包括:
将所述第三特征集发送给管理设备;
接收所述管理设备发送的更新后的第三特征集。
10.一种用于实现模型训练的方法,其特征在于,所述方法包括:
确定样本数据的模式特点,所述模式特点表征所述样本数据的分布特征和统计特征中的至少一个;
生成目标特征集,所述目标特征集包括所述样本数据的模式特点对应的特征,所述目标特征集中的特征用于对机器学习模型进行训练,所述机器学习模型用于对所述网络设备采集到的待预测数据进行预测。
11.根据权利要求10所述的方法,其特征在于,在所述生成目标特征集之后,所述方法还包括:
将所述目标特征集发送给管理设备;
接收所述管理设备发送的更新后的目标特征集。
12.根据权利要求10或11所述的方法,其特征在于,在所述确定样本数据的模式特点之前,所述方法还包括:
确定所述机器学习模型发生劣化,所述样本数据是在所述机器学习模型发生劣化后采集的。
13.根据权利要求12所述的方法,其特征在于,在所述确定所述机器学习模型发生劣化之后,所述方法还包括:
获取用于训练得到发生劣化的所述机器学习模型的第一特征集;
计算所述第一特征集中每个特征的有效性评分,特征的有效性评分与所述特征跟所述第一特征集中的其它特征之间的相关性负相关;
基于所述第一特征集中每个特征的有效性评分,确定所述第一特征集中的失效特征;
删除所述目标特征集中的失效特征,得到第二特征集,所述第二特征集用于对发生劣化的所述机器学习模型进行重训练。
14.一种用于实现模型训练的装置,其特征在于,所述装置包括:
第一获取模块,用于当机器学习模型发生劣化时,获取第一...
【专利技术属性】
技术研发人员:孙旭东,张彦芳,张亮,刘树成,王雅莉,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。