【技术实现步骤摘要】
一种样本迁移方法、装置及设备
本说明书实施例涉及信息
,尤其涉及一种样本迁移方法、装置及设备。
技术介绍
风控模型的建立无法绕过模型训练阶段,而训练阶段需要有一定周期的业务数据积累和打标数据。在实际应用中,则经常会遇到在某个环境中,从零基础上发展某些已经成熟业务。例如,第三方支付在国内已经很成熟,但是需要在某外国开展业务时,业务场景虽然类似,但是环境则不一样,在业务开展初期只有非常少量的样本积累,这导致这些业务在上线初期很难以当地的数据训练和建立有效的风控模型和策略进行风险防控。基于此,需要一种可靠的样本迁移方案。
技术实现思路
本申请实施例的目的是提供一种可靠的样本迁移。为解决上述技术问题,本申请实施例是这样实现的:一种样本迁移方法,包括:获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;确定出源样本和目标域样本中所包含的相同特征以及不同特征;针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。对应的,本说明书 ...
【技术保护点】
1.一种样本迁移方法,包括:/n获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;/n确定出源样本和目标域样本中所包含的相同特征以及不同特征;/n针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;/n针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;/n合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。/n
【技术特征摘要】
1.一种样本迁移方法,包括:
获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;
确定出源样本和目标域样本中所包含的相同特征以及不同特征;
针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;
针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;
合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。
2.如权利要求1所述的方法,针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最接近的特征值分布,包括:
通过调整映射函数或者映射函数中的参数,将相同特征的特征值映射至同一高维空间;
当在所述高维空间中,源样本集合和目标域样本集合的样本特征值的平均值最小时,确定此时的特征值分布为最接近的特征值分布。
3.如权利要求1所述的方法,针对相同特征,将源样本和目标域样本映射至同一高维空间,包括:
逐一将所述源样本和目标域样本的相同特征的特征值映射至同一高维空间,相应的,所述确定出相同特征下,源样本集合和目标域样本集合中最接近的特征值分布,包括:
确定在当前的相同特征下的高维空间中,源样本集合和目标域样本集合中最接近的特征值分布。
4.如权利要求1所述的方法,针对相同特征,将源样本和目标域样本映射至同一高维空间,包括:
所述源样本和目标域样本的部分/全量相同特征的特征值映射至同一高维空间,相应,所述确定出相同特征下,源样本集合和目标域样本集合中最接近的特征值分布,包括:
确定在部分/全量的相同特征下的高维空间中,源样本集合和目标域样本集合中最接近的特征值分布。
5.如权利要求1所述的方法,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值,包括:
针对任一不同特征,确定源样本集合中该不同特征的平均值,在所述目标域样本中添加该不同特征,且,在目标域样本中该不同特征的取值为所述平均值。
6.如权利要求1所述的方法,合并所述特征值变...
【专利技术属性】
技术研发人员:王骏,陈弢,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。