一种构建变量的方法及装置制造方法及图纸

技术编号:20425251 阅读:22 留言:0更新日期:2019-02-23 08:31
本发明专利技术公开了一种构建变量的方法及装置,该方法包括获取建模所需的特定字段和固定时间段,针对每个特定字段,确定任意一人在固定时间段内的明细变量,对明细变量进行汇总,将汇总后的明细变量进行无量纲化,确定建模所需的变量。该技术方案解决在大量人群自变量的批量计算时,对机器性能要求高,以及数据存储器的数据来源发生明显增减时导致建立模型不稳定甚至失效的问题。

【技术实现步骤摘要】
一种构建变量的方法及装置
本专利技术实施例涉及大数据科学领域,尤其涉及一种构建变量的方法及装置。
技术介绍
在大数据科学领域,常用设定人群的明细数据来直接作为自变量,如账龄、消费金额等。这种情况下,进行大量人群自变量的批量计算时,对每个人均要全量读取其明细信息,此种处理对机器性能有较高要求;同时,当数据存储方的数据来源发生明显增减时,用明细变量计算的客户自变量会有明显波动,进而引起设定人群此时计算的自变量所处区间与当初建模变量划分区间不一致,导致所建立模型不稳定甚至失效。
技术实现思路
本专利技术实施例提供一种构建变量的方法及装置,用以解决在大量人群自变量的批量计算时,对机器性能要求高,以及数据存储器的数据来源发生明显增减时导致建立模型不稳定甚至失效的问题。本专利技术实施例提供的一种构建变量的方法,包括:获取建模所需的特定字段和固定时间段;针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总;将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。上述实施例中,获取固定时间段内任意一人对于特定字段的明细变量,汇总该明细变量,并对该汇总后明细变量进行无量纲化,降低了在处理过程中对处理机器的要求,同时采用无量纲化,又可以增加建立模型的稳定性。可选的,所述固定时间段为时间长度大于一周且小于两个月的任意时间段。上述实施例中,固定时间段可以为时间长度大于一周且小于两个月的任意时间段,对每个时段的明细变量进行汇总,减少了数据存储压力,同时减少了长时间区间变量的叠加因素对变量计算的绝对影响。可选的,所述特定字段为下述任一字段或组合:账龄、消费金额、信用卡出帐总金额。可选的,所述将汇总后的明细变量进行无量纲化,包括:将汇总后的明细变量进行离差标准化;或将汇总后的明细变量进行标准差标准化;或将汇总后的明细变量进行序数无量纲化。上述实施例中,通过无量纲化计算每个人在固定时间的无量纲变量,能够更加综合地评价个人在变量中的表现,减少了变量的绝对变化导致的建立模型的不稳定性。可选的,所述将汇总后的明细变量进行序数无量纲化,包括:根据所述汇总后的明细变量,确定所述汇总后的每个明细变量的序数;将所述汇总后的每个明细变量的序数除以总样本数。上述实施例中,通过对汇总后的明细变量进行序数无量纲化,可以将原始变量变为0-1的变量,提高了建立模型的稳定性。相应的,本专利技术实施例还提供了一种构建变量的装置,包括:获取单元,用于获取建模所需的特定字段和固定时间段;处理单元,用于针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总;并将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。可选的,所述固定时间段为时间长度大于一周且小于两个月的任意时间段。可选的,所述特定字段为下述任一字段或组合:账龄、消费金额、信用卡出帐总金额。可选的,所述处理单元具体用于:将汇总后的明细变量进行离差标准化;或将汇总后的明细变量进行标准差标准化;或将汇总后的明细变量进行序数无量纲化。可选的,所述处理单元具体用于:根据所述汇总后的明细变量,确定所述汇总后的每个明细变量的序数;将所述汇总后的每个明细变量的序数除以总样本数。相应的,本专利技术实施例还提供了一种计算设备,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述构建变量的方法。相应的,本专利技术实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述构建变量的方法。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种系统架构的示意图;图2为本专利技术实施例提供的一种构建变量的方法的流程示意图;图3为本专利技术实施例提供的一种构建变量的装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图1示例性的示出了本专利技术实施例提供移动终端图像修正的方法所适用的系统架构,该系统架构可以为包括数据存储器101、数据处理器102。其中,数据存储器101用于存储设定人群在一段时间内的明细数据,例如存储设定人群在一年内的账龄、消费金额等。数据处理器102用于获取数据存储器101中设定人群在一段时间内的明细数据,并根据获取到的明细数据建立模型并计算。基于上述描述,图2示例性的示出了本专利技术实施例提供的一种构建变量的方法的流程,该流程可以由构建变量的装置执行,该装置可以位于数据处理器中,可以是该数据处理器。如图2所示,该流程具体包括:步骤201,获取建模所需的特定字段和固定时间段。其中,固定时间段可以为时间长度大于一周且小于两个月的任意时间段,例如,固定时间段可以取一个月;特定字段可以为账龄、消费金额、信用卡出帐总金额中的任一字段或组合。例如,获取的固定时间段为一个月,获取特定字段为信用卡出帐总金额。步骤202,针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总。针对每个特定字段,确定任意一人在固定时间段内的明细变量,例如获取的建模所需的特定字段为信用卡出帐总金额,则可以针对信用卡出帐总金额这一字段确定任意一人在固定时间段内的明细变量,例如可以确定任意一人在一个月内明细变量,最后将获取到的明细变量进行汇总。步骤203,将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。将汇总后的明细变量进行无量纲化处理,也就是将有量纲的数据经无量纲化处理后变成无量纲的数据。将所有汇总后的明细变量进行综合处理,减少了变量绝对变化带来的变量区间变化,从而提高了所建立模型的稳定性。此处,将汇总后的明细变量进行无量纲化,可以包括三种实现方式:1、将汇总后的明细变量进行离差标准化;2、将汇总后的明细变量进行标准差标准化;3、将汇总后的明细变量进行序数无量纲化;其中,将汇总后的明细变量进行序数无量纲化可以解释为:根据汇总后的明细变量,确定汇总后的每个明细变量的序数,将汇总后的每个明细变量的序数除以总样本数。通过序数无量纲化可以将汇总后的明细变量由原始变量转化为无量纲值。例如,获取的汇总后的明细变量:一月份消费金额为900元、二月份消费金额为1000元、三月份消费金额为800元,则可以由大到小确定三个明细变量的序数分别为2、1、3,将每个明细变量的序数除以总样本数3,最后得到无量纲化的汇总后的明细变量为2/3、1/3、3/3。上述实施例中,获取固定时间段内任意一人对于特定字段的明细变量,汇总该明细变量,并对该汇总后明细变量进行无量纲化,降低了在处理过程中对处理机器的要求,同时采用无量纲化,又可以增加建立模型的稳定性。基于同一专利技术构思,图3示例性的示出了本专利技术实施例提供的一种构建变量的装置的结构,该装置可以执行构建变本文档来自技高网...

【技术保护点】
1.一种构建变量的方法,其特征在于,包括:获取建模所需的特定字段和固定时间段;针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总;将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。

【技术特征摘要】
1.一种构建变量的方法,其特征在于,包括:获取建模所需的特定字段和固定时间段;针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总;将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。2.如权利要求1所述的方法,其特征在于,所述固定时间段为时间长度大于一周且小于两个月的任意时间段。3.如权利要求1所述的方法,其特征在于,所述特定字段为下述任一字段或组合:账龄、消费金额、信用卡出帐总金额。4.如权利要求1所述的方法,其特征在于,所述将汇总后的明细变量进行无量纲化,包括:将汇总后的明细变量进行离差标准化;或将汇总后的明细变量进行标准差标准化;或将汇总后的明细变量进行序数无量纲化。5.如权利要求4所述的方法,其特征在于,所述将汇总后的明细变量进行序数无量纲化,包括:根据所述汇总后的明细变量,确定所述汇总后的每个明细变量的序数;将所述汇总后的每个明细变量的序数除以总样本数。6.一种构建变量的装置,其特征在于,包括:获取单元,用于获取建模所需的特定字段和固定时间段;处理单元,用于针对每个所述特定字段,确定任意一人在所述固定时...

【专利技术属性】
技术研发人员:王越曾伟雄刘晓东
申请(专利权)人:蜜小蜂智慧北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1