【技术实现步骤摘要】
数据宽表构建方法、装置、设备及存储介质
本专利技术涉及大数据处理,尤其涉及一种数据宽表构建方法、装置、设备及存储介质。
技术介绍
在构建模型之前,通常需要构建数据宽表,而数据宽表由多张源表构成,通常指与建模相关的指标、维度、属性关联在一起的一张数据库表。宽表并不符合三范式的表格模型设计规范,而是将建模所需的所有数据拼接在一张表格中,虽然会带来数据的大量冗余,但预置相对应的好处是查询性能的提高与便捷,大大提升数据挖掘模型训练过程中迭代计算时的效率问题,典型的以空间换时间的数据存储格式,便有训练迭代,减少表关联数量,修改少量数据时不需要多张表格。一般而言,将多张三范式的源表拼接成一张包括全数据的宽表,主要是通过串行拼接的方式来实现,即根据建模面对的目标人群构建数据基准表,然后根据源表的人群特征依次拼接至数据基准表中,而这样的源表拼接方式得到的宽表存在诸多弊端,其一是源表中的数据不限定在宽表中拼接位置,导致得到的宽表数据存储层次不明显,其二是拼接过程中难以验证表格中数据存储的准确性,其三是若源表发散则导致拼接至宽表的数据量暴增,综上所述,即现有技术中数据宽表的拼接方式得到的数据宽表容易导致后期建模执行效率低。
技术实现思路
本专利技术的主要目的在于解决通过现有拼接方式得到的数据宽表存在执行效率低的技术问题。本专利技术第一方面提供了一种数据宽表构建方法,包括:获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;收集所述目标用户群体对应的用户基础信息,并根据所 ...
【技术保护点】
1.一种数据宽表构建方法,其特征在于,所述数据宽表构建方法包括:/n获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;/n收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;/n从多个预置数据存储分区中收集所述身份字段对应的特征数据;/n根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;/n拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。/n
【技术特征摘要】
1.一种数据宽表构建方法,其特征在于,所述数据宽表构建方法包括:
获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
从多个预置数据存储分区中收集所述身份字段对应的特征数据;
根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
2.根据权利要求1所述的数据宽表构建方法,其特征在于,所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表包括:
解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;
根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;
根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。
3.根据权利要求2所述的数据宽表构建方法,其特征在于,在所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表之后,还包括:
判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
若存在,则生成对应的数据基准表配置错误的提示信息;
若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。
4.根据权利要求1所述的数据宽表构建方法,其特征在于,所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表包括:
统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。
5.根据权利要求4所述的数据宽表构建方法,其特征在于,在所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表之后,还包括:
检测所述特征数据是否成功写入对应的数据分表;
若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;
若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的...
【专利技术属性】
技术研发人员:蔡金成,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。