【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
[0002]在推荐和搜索领域中,为了提升推荐和搜索的准确性,推荐系统趋向于更复杂的推荐模型。但是模型大小的不断膨胀,带来了存储和计算复杂度的问题。在降本增效的大环境下,有限的机器资源无法负荷日渐增长的模型,因此需要在模型效果和资源开销之间进行权衡。
[0003]目前通过特征裁减,即删除冗余或不必要的特征来减少模型的大小和计算成本,提高模型的效率和性能。但是目前的特征裁减方法,特征裁减不准确,进而降低了特征裁减后模型的数据处理效果。
技术实现思路
[0004]本申请提供一种数据处理方法、装置、设备及存储介质,实现特征的准确裁减,进而在保证数据处理效果的基础上,降低了资源开销。
[0005]第一方面,本申请提供一种数据处理方法,包括:获取待处理的目标数据,以及第一深度模型对应的M个特征的目标权重,所述M个特征的目标权重是基于模型损失函数和第一训练样本对所述第一 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理的目标数据,以及第一深度模型对应的M个特征的目标权重,所述M个特征的目标权重是基于模型损失函数和第一训练样本对所述第一深度模型进行训练得到,所述模型损失函数包括第一正则损失,所述第一正则损失用于使所述M个特征的权重两级分化为第一数值或第二数值,所述M为正整数;基于所述M个特征的目标权重,提取出所述目标数据的M个特征中的N个特征,所述N为小于M的正整数;通过目标深度模型,对所述目标数据的N个特征进行处理,得到所述目标数据的处理结果,所述目标深度模型是对所述第一深度模型进行训练得到。2.根据权利要求1所述的方法,其特征在于,所述基于所述M个特征的目标权重,提取出所述目标数据的M个特征中的N个特征,包括:对于所述M个特征中的每一个特征,若所述特征的目标权重等于所述第一数值时,则不提取所述特征;若所述特征的目标权重等于所述第二数值时,则提取所述特征。3.根据权利要求1所述的方法,其特征在于,所述模型损失函数还包括预测损失,所述M个特征的目标权重的训练过程,包括:获取所述第一训练样本,并提取所述第一训练样本的M个特征的第一特征向量;基于所述M个特征的权重,以及所述M个特征的第一特征信息,得到所述M个特征的第二特征向量;通过所述第一深度模型,对所述M个特征的第二特征向量进行处理,确定所述预测损失,并基于所述M个特征的权重,确定所述第一正则损失;基于所述第一正则损失和所述预测损失,确定所述第一深度模型的模型损失;基于所述模型损失,对所述第一深度模型中的参数、以及所述M个特征的权重进行调整,得到所述M个特征的目标权重。4.根据权利要求3所述的方法,其特征在于,所述基于所述M个特征的权重,以及所述M个特征的第一特征信息,得到所述M个特征的第二特征向量,包括:对于所述M个特征中的每一个特征,将所述特征的权重与所述特征的第一特征信息进行点乘,得到所述特征的第二特性向量。5.根据权利要求3所述的方法,其特征在于,所述通过所述第一深度模型,对所述M个特征的第二特征向量进行处理,确定所述预测损失,包括:通过所述第一深度模型,对所述M个特征的第二特征向量进行处理,得到所述第一训练样本的预测值;基于所述第一训练样本的预测值和所述第一训练样本的标签,确定所述预测损失。6.根据权利要求3所述的方法,其特征在于,所述第一正则损失包括约束条件,所述基于所述M个特征的权重,确定所述第一正则损失,包括:基于所述M个特征的权重,确定权重平均值;对于所述M个特征中的每一个特征,基于所述特征的权重、所述权重平均值和所述约束条件,确定所述特征的权重与所述权重平均值之间第一差异值,所述约束条件用于控制所述特征的权重远离所述权重平均值;
基于所述M个特征中每一个特征对应的第一差异值,确定所述第一正则损失。7.根据权利要求6所述的方法,其特征在于,所述基于所述特征的权重、所述权重平均值和所述约束条件,确定所述特征的权重与所述权重平均值之间第一差异值,包括:将所述特征的权重与所述权重平均值的差值绝对值的负数,确定为所述特征的权重与所述权重平均值之间第一差异值。8.根据权利要求6所述的方法,其特征在于,所述基于所述M个特征中每一个特征对应的第一差异值,确定所述第一正则损失,包括:对于所述M个特征中的每一个特征,将所述特征的权重和预设超参数相乘,得到第一值;将第一值与所述特征对应的第一差异值进行相加,得到第一和值;基于所述M个特征中每一个特征对应的第一和值,确定所述第一正则损失。9.根据权利要求3所述的方法,其特征在于,所述模型损失函数还包括第二正则损失,所述基于所述第一正则损失和所述预测损失,确定所述第一深度模型的模型损失,包括:基于所述第一深度模型的参数权重,确定所述第二正则损失;基于所述预测损失、所述第一正则损失和所述第二正则损失,得到所述模型损失。10.根据权利要求3所述的方法,其特征在于,在使用所述第一训练样本对所述第一深度模型进行训练的过程中,所述方...
【专利技术属性】
技术研发人员:鄢曼丽,易玲玲,文杰,陈川,林康熠,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。