数据处理方法、电子设备及计算机存储介质技术

技术编号:33429101 阅读:24 留言:0更新日期:2022-05-19 00:19
本申请实施例提供了一种数据处理方法、电子设备及计算机存储介质,其中,所述数据处理方法包括:按照预设的固定格式,将样本数据转换为样本格式数据;对所述样本格式数据进行交换噪声处理,获得加噪样本格式数据;根据所述加噪样本格式数据构建第一训练样本,对用于进行特征提取的第一机器学习模型进行训练,其中,训练完成的所述第一机器模型的输出用于构建进行服务处理的第二机器学习模型的输入。通过本申请实施例,既解决了正负样本不平衡、少样本的问题,又能保证传统机器学习模型的训练效果。效果。效果。

【技术实现步骤摘要】
数据处理方法、电子设备及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种数据处理方法、电子设备及计算机存储介质。

技术介绍

[0002]随着人工智能技术的发展,基于机器学习模型的智能决策得到了广泛应用,如智能推荐、自动驾驶等等。
[0003]目前,大部分用于智能决策的机器学习模型如LR+GBDT、wide&deep、deepfm、DIN 等,对正负样本的平衡都有要求,需要有平衡的正负样本。同时,以deepfm为代表的机器学习模型对样本数量也有要求,机器学习方法往往需要更多的样本去拟合参数,而在样本不平衡及少样本的情况下,模型往往是欠拟合的。然而,在实际场景中,经常存在正样本少,负样本多的问题,这对原始模型的性能达标带来了不小的挑战。例如,在客服热线呼入场景中,由于很多热线呼入的数据本身即存在着不平衡问题,加之大部分数据都是人为登记的,使得样本不平衡问题更为突显。
[0004]因此,如何在样本不平衡的情况下保证机器学习模型的训练效果,进而获得较为准确的服务信息,成为亟待解决的问题。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:按照预设的固定格式,将样本数据转换为样本格式数据;对所述样本格式数据进行交换噪声处理,获得加噪样本格式数据;根据所述加噪样本格式数据构建第一训练样本,对用于进行特征提取的第一机器学习模型进行训练,其中,训练完成的所述第一机器模型的输出用于构建进行服务处理的第二机器学习模型的输入。2.根据权利要求1所述的方法,其中,所述方法还包括:获取有标签样本数据、和经过训练完成的所述第一机器学习模型对所述有标签样本数据对应的样本格式数据进行特征提取后获得的样本表征数据;根据所述有标签样本数据、所述有标签样本数据对应的标签、和所述有标签样本数据对应的样本表征数据构建第二训练样本,对用于进行服务处理的第二机器学习模型进行训练。3.根据权利要求1所述的方法,其中,所述对所述样本格式数据进行交换噪声处理,获得加噪样本格式数据,包括:对所述样本格式数据进行列交换噪声处理,获得加噪样本格式数据。4.根据权利要求3所述的方法,其中,所述第一机器学习模型为编码器模型。5.根据权利要求4所述的方法,其中,所述根据所述加噪样本格式数据构建第一训练样本,对用于进行特征提取的第一机器学习模型进行训练,包括:根据所述加噪样本格式数据构建第一训练样本;将所述第一训练样本输入所述编码器的输入层;通过所述编码器的隐藏层对所述输入层接收的第一训练样本进行升维,并基于升维后的第一训练样本进行特征提取;通过所述编码器的输出层根据...

【专利技术属性】
技术研发人员:杨晓声
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1