【技术实现步骤摘要】
一种数据处理方法、装置、设备和存储介质
[0001]本公开实施例涉及计算机技术,尤其涉及一种数据处理方法、装置、设备和存储介质。
技术介绍
[0002]随着计算机技术的快速发展,基于深度学习的网络模型被广泛应用。例如,可以使用回归网络模型进行数据的回归预测处理等。在使用网络模型进行数据处理之前需要基于样本数据集对网络模型进行有监督地训练。然而,样本数据集中的标签数据往往分布不均衡,比如出现长尾分布,也就是大多数样本的标签数值较小,只有少数样本的标签数值较大。可见,直接利用这种样本数据集进行模型训练无法有效保证模型的训练效果,进而无法有效保证数据处理结果的准确性。
技术实现思路
[0003]本公开提供一种数据处理方法、装置、设备和存储介质,以在标签数据分布不均衡时有效保证模型训练效果,从而有效保证数据处理结果的准确性。
[0004]第一方面,本公开实施例提供了一种数据处理方法,包括:
[0005]获取待处理的目标数据;
[0006]将所述目标数据输入至目标网络模型中进行处理,其中,所述目 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种数据处理方法,其特征在于,包括:获取待处理的目标数据;将所述目标数据输入至目标网络模型中进行处理,其中,所述目标网络模型是基于样本数据集和每个样本数据对应的样本权重进行加权训练获得的,所述样本权重是基于样本数据集和核函数进行标签平滑处理确定的;基于所述目标网络模型的输出,获得所述目标数据对应的目标处理结果。2.根据权利要求1所述的数据处理方法,其特征在于,基于样本数据集和核函数进行标签平滑处理,确定每个样本数据对应的样本权重,包括:基于样本数据集,确定每个标签类别对应的标签类别频数;基于核函数,对每个标签类别对应的标签类别频数进行平滑处理,获得平滑后的目标类别频数;基于所述目标类别频数和所述样本数据集,确定每个样本数据对应的样本权重。3.根据权利要求2所述的数据处理方法,其特征在于,所述基于样本数据集,确定每个标签类别对应的标签类别频数,包括:基于样本数据集,确定每个标签类别对应的样本数量;根据每个标签类别对应的样本数量和所述样本数据集对应的总样本数量,确定每个标签类别对应的标签类别频数。4.根据权利要求2所述的数据处理方法,其特征在于,所述基于核函数,对每个标签类别对应的标签类别频数进行平滑处理,获得平滑后的目标类别频数,包括:基于核函数和可变的标签类别对应的标签类别频数,确定待积分的目标函数,其中,所述核函数中的两个输入参数分别为固定不变的当前标签类别和可变的标签类别;以可变的标签类别为积分变量,对所述目标函数进行积分,获得固定不变的当前标签类别对应的目标类别频数。5.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述目标类别频数和所述样本数据集,确定每个样本数据对应的样本权重,包括:基于所述目标类别频数确定每个标签类别对应的标签类别权重;基于所述标签类别权重和所述样本数据集,确定每个样本数据对应的样本权重。6.根据权利要求5所述的数据处理方法,其特征在于,每个标签类别对应的标签类别权重和相应的目标类别频数呈负相关。7.根据权利要求5所述的数据处理方法,其特征在于,所述基于所述标签类别权重和所述样本数据集,确定每个样本数据对应的样本权重,包括:基于每个样本数据所属于的标签类别对应的标签类别权重,确定所述样本数据集对应的标签类别总权重;针对每个样本数据,根据该样本数据所属于的标签类别对应的标签类别权重、所述标签类别总权重和所述样本数据集对应的总样本数量,确定该样本数据对应的样本权重。8.根据权利要求1所述的数据处理方法,其特征在于,基于样本数据集和每个样本数据对应的样本权重进行加权训练获得所述目标网络模型,包括:获取所述样本数据集中的每个样本数据,所述样本数据包括样本输入数据和样本输出标签;
将所述样本数据中的样本输入数据输入至预设网络模型中,并基于所述预设网络模型的输出,获得该样本数据对应的样本输出结果;基于所述样本数据对应的样本输出结果、样本输出标签和所述样本权重,确定训练误差;将所述训练误差反向传播至预设网络模型中,调整预设网络模型中的模型参数,直到达到预设收敛条件时确定预设网络模型训练结束,获得所述目标网络模型。9.根据权利要求1
技术研发人员:葛方顺,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。