一种样本迁移方法、装置及设备制造方法及图纸

技术编号:23213486 阅读:20 留言:0更新日期:2020-01-31 22:07
公开了一种样本迁移方法、装置及设备。通过本说明书实施例所提供的方案,抽取业务已经成熟的源领域中的源样本,以及少量的目标域中的目标域样本,分别比较出相同特征和不同特征,对于相同特征,进行高维映射后的适配,对于不同特征则进行补齐,从而得到修正后的源样本和目标域样本,并且合并得到可用于目标域的融合样本集合。

A sample migration method, device and equipment

【技术实现步骤摘要】
一种样本迁移方法、装置及设备
本说明书实施例涉及信息
,尤其涉及一种样本迁移方法、装置及设备。
技术介绍
风控模型的建立无法绕过模型训练阶段,而训练阶段需要有一定周期的业务数据积累和打标数据。在实际应用中,则经常会遇到在某个环境中,从零基础上发展某些已经成熟业务。例如,第三方支付在国内已经很成熟,但是需要在某外国开展业务时,业务场景虽然类似,但是环境则不一样,在业务开展初期只有非常少量的样本积累,这导致这些业务在上线初期很难以当地的数据训练和建立有效的风控模型和策略进行风险防控。基于此,需要一种可靠的样本迁移方案。
技术实现思路
本申请实施例的目的是提供一种可靠的样本迁移。为解决上述技术问题,本申请实施例是这样实现的:一种样本迁移方法,包括:获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;确定出源样本和目标域样本中所包含的相同特征以及不同特征;针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。对应的,本说明书实施例还提供一种样本迁移装置,包括:样本获取模块,样本获取装置获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;特征确定模块,确定出源样本和目标域样本中所包含的相同特征以及不同特征;相同特征变换模块,针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;不同特征变换模块,针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;融合模块,合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。通过本说明书实施例所提供的方案,抽取业务已经成熟的源领域中的源样本,以及少量的目标域中的目标域样本,分别比较出相同特征和不同特征,对于相同特征,进行高维映射后的适配,对于不同特征则进行补齐,从而得到修正后的源样本和目标域样本,并且合并得到可用于目标域的融合样本集合。由于目标域样本和源域样本本就属于类似的业务场景,通过前述方式使得目标域样本和源域样本的特征值分布大致相当,提升了融合样本集合的数量和在目标域中的可靠性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本说明书实施例提供的一种样本迁移方法的流程示意图;图2为本说明书实施例所提供的一种特征描述的示意图;图3为本说明书实施例所给出的补齐目标域样本特征的示意图;图4是本说明书实施例提供的一种样本迁移装置的结构示意图;图5是用于配置本说明书实施例方法的一种设备的结构示意图。具体实施方式为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。首先对于本说明书实施例所中涉及的一些概念进行解释:源域:指是可以作为样本迁移的源业务领域,比如中国境内成熟的第三方支付领域,在该领域红,样本数量多,训练出来的模型成熟可靠。源样本:应用于源域中的样本,每个样本都已经得到欺诈交易或者正常交易的标签打标。源样本集合:由源样本所构成的集合,集合中元素数量较多。目标域:指需要进行样本迁移的目标领域,比如境外某个国家开展的第三方支付领域,目标域中的业务与源域中的业务场景类似。目标域样本:应用于目标域中的样本,由于业务在境外是刚开展,因此目标域样本较少。目标域样本集合:由目标域样本所构成的集合,集合中元素数量较少。以下结合附图,详细说明本说明书各实施例提供的技术方案。如图1所示,图1是本说明书实施例提供的一种样本迁移方法的流程示意图,该流程具体包括如下步骤:S101,获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征。首先需要说明的是,样本是由多个特征所组成的,同时,每个特征都会有相应的特征值。在源样本中,由于业务已经成熟,特征和特征值都是已经确定可知的。以及,每个源样本都可以有明确的标签。换言之,源样本中的特征数量是确定的,每个样本中的特征值也是确定的。同时,针对目标域样本,由于需要进行样本迁移,因此目标域样本中的特征数量需要与源样本中相同。一种实施方式可以是,在创建目标域样本时,即将目标域样本中的特征数量确定为等于源样本中的特征数量确定。S103,确定出源样本和目标域样本中所包含的相同特征以及不同特征。本说明书实施例中所指的不同特征是指源样本中有而目标域样本中没有的特征。如果一个特征是目标域样本中存在而源样本不存在,在这个过程中可以视为冗余特征,进行删除。实际上,由于业务类型相似,因此目标域样本在建立时,其所包含的特征也往往是与源样本相同,或者更少。如图2所示,图2为本说明书实施例所提供的一种特征描述的示意图。图中的重叠部分即表示为相同特征,显然,相同特征可以是一个或者多个。S105,针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值。具体而言,可以采用各种函数变换,将源样本和目标域样本同时映射至同一高维空间。例如采用线性变换,或者多项式变换,或者高斯变换等等。采用函数变换进行高维映射的目的在于,在低维空间中,由于目标域和目标域所处的环境不同,同一特征的特征值很难看出彼此间的联系。例如,对于特征“月消费额度”或者特征“可信用透支额度”,在国内的环境下与在国外的环境下,直接进行特征值的比较或者本文档来自技高网...

【技术保护点】
1.一种样本迁移方法,包括:/n获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;/n确定出源样本和目标域样本中所包含的相同特征以及不同特征;/n针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;/n针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;/n合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。/n

【技术特征摘要】
1.一种样本迁移方法,包括:
获取源样本集合和目标域样本集合,其中,所述源样本和目标域样本包含数量相同的特征,所述源样本和目标域样本应用于类似的业务领域;
确定出源样本和目标域样本中所包含的相同特征以及不同特征;
针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最近接的特征值分布,根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值;
针对不同特征,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值;
合并所述特征值变更后的源样本集合和目标域样本集合,生成融合样本集合,以用于在目标域中进行模型训练。


2.如权利要求1所述的方法,针对相同特征,将源样本和目标域样本映射至同一高维空间,确定出相同特征下,源样本集合和目标域样本集合中最接近的特征值分布,包括:
通过调整映射函数或者映射函数中的参数,将相同特征的特征值映射至同一高维空间;
当在所述高维空间中,源样本集合和目标域样本集合的样本特征值的平均值最小时,确定此时的特征值分布为最接近的特征值分布。


3.如权利要求1所述的方法,针对相同特征,将源样本和目标域样本映射至同一高维空间,包括:
逐一将所述源样本和目标域样本的相同特征的特征值映射至同一高维空间,相应的,所述确定出相同特征下,源样本集合和目标域样本集合中最接近的特征值分布,包括:
确定在当前的相同特征下的高维空间中,源样本集合和目标域样本集合中最接近的特征值分布。


4.如权利要求1所述的方法,针对相同特征,将源样本和目标域样本映射至同一高维空间,包括:
所述源样本和目标域样本的部分/全量相同特征的特征值映射至同一高维空间,相应,所述确定出相同特征下,源样本集合和目标域样本集合中最接近的特征值分布,包括:
确定在部分/全量的相同特征下的高维空间中,源样本集合和目标域样本集合中最接近的特征值分布。


5.如权利要求1所述的方法,根据源样本集合中所述不同特征的取值,补齐所述目标域样本中的不同特征的特征值,包括:
针对任一不同特征,确定源样本集合中该不同特征的平均值,在所述目标域样本中添加该不同特征,且,在目标域样本中该不同特征的取值为所述平均值。


6.如权利要求1所述的方法,合并所述特征值变...

【专利技术属性】
技术研发人员:王骏陈弢
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1