【技术实现步骤摘要】
基于历史行为的数据增强方法、装置、设备以及存储介质
本申请涉及计算机
,具体涉及大数据
,尤其涉及基于历史行为的数据增强方法、装置、设备以及存储介质。
技术介绍
训练数据对机器学习模型非常重要,通常来说训练数据越多,机器学习模型的效果越好。在实际的应用中,有标注的训练数据很难收集到,因此需要对现有的训练数据进行补充。对于图像数据,通常通过对原始图片进行翻转、旋转、随机裁剪、局部变形等方法对数据进行扩充。对于文本类型的数据,通常使用近义词替换、随机插入词、随机交换位置等方式对数据进行扩充。但是,对于包含时间特征的表格型数据,通常很难收集到大量的真实样本,现有的方法是使用SMOTE、GAN等算法生成一些伪样本。
技术实现思路
为了解决上述
技术介绍
部分提到的一个或多个技术问题,本申请实施例提供了基于历史行为的数据增强方法、装置、设备以及存储介质。第一方面,本申请实施例提供了基于历史行为的数据增强方法,包括:获取用户当前时间的样本数据;确定第一时间间隔,以及获取用户在所述第一时间间隔前 ...
【技术保护点】
1.一种基于历史行为的数据增强方法,包括:/n获取用户当前时间的样本数据;/n确定第一时间间隔,以及获取用户在所述第一时间间隔前的第一历史样本数据;/n确定所述当前时间的样本数据与所述第一历史样本数据的第一分布距离,若所述第一分布距离小于预定的最小分布距离,则将所述第一历史样本数据作为增强数据集。/n
【技术特征摘要】
1.一种基于历史行为的数据增强方法,包括:
获取用户当前时间的样本数据;
确定第一时间间隔,以及获取用户在所述第一时间间隔前的第一历史样本数据;
确定所述当前时间的样本数据与所述第一历史样本数据的第一分布距离,若所述第一分布距离小于预定的最小分布距离,则将所述第一历史样本数据作为增强数据集。
2.根据权利要求1所述的方法,还包括:
确定第二时间间隔,以及获取用户在所述第二时间间隔前的第二历史样本数据,其中,所述第二时间间隔大于所述第一时间间隔;
确定所述当前时间的样本数据与所述第二历史样本数据的第二分布距离,若所述第二分布距离小于预定的最小分布距离,则将所述第二历史样本数据作为增强数据集。
3.根据权利要求1或2所述的方法,所述获取用户在所述第一时间间隔前的第一历史样本数据或获取用户在所述第二时间间隔前的第二历史样本数据还包括:
对所述第一历史样本数据或所述第二历史样本数据进行预处理,所述预处理包括:
若所述第一历史样本数据或所述第二历史样本数据的变化特征值大于预定的最小阈值,则输出所述第一历史样本数据或所述第二历史样本数据。
4.根据权利要求1所述的方法,所述确定第一时间间隔包括:
基于所述当前时间的样本数据中的特征的时间变化特征,确定所述第一时间间隔。
5.根据权利要求1或2所述的方法,所述确定所述当前时间的样本数据与所述第一历史样本数据的第一分布距离或所述当前时间的样本数据与所述第二历史样本数据的第二分布距离包括:
基于所述当前时间的样本数据与所述第一历史样本数据之间的散度或所述当前时间的样本数据与所述第二历史样本数据之间的散度,确定所述第一分布距离或所述第二分布距离。
6.根据权利要求1-5任一项所述的方法,其特征在于,将所述数据增强集作为训练样本,对金融信贷系统中的风控模型或推荐系统中的点击率预估模型进行训练,得到训练好的风控模型或点击率预估模型。
7.一种基于历史行为的数据增强装置,其特征在于,所述装置包括:
获取模块,被配置为获取用户当前时间的样本数据;
第一时间间隔确定模块以及第一获取模块,被配置为确定第一时间间隔,以及获取用户在所述第一时间间隔前的第一历史样本数据;
...
【专利技术属性】
技术研发人员:付琰,陈亮辉,甘露,周洋杰,方军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。