数据宽表构建方法、装置、设备及存储介质制造方法及图纸

技术编号:26170851 阅读:36 留言:0更新日期:2020-10-31 13:40
本发明专利技术涉及大数据,公开了一种数据宽表构建方法,包括:获取待构建模型的需求信息,以确定对应的目标用户群体;收集目标用户群体对应的用户基础信息,结合预置数据宽表构建规则,配置待构建模型对应的包含用户身份字段的数据基准表;从多个预置数据存储分区中收集身份字段对应的特征数据;根据身份字段,采用异步线程方式分别将数据基准表数据与特征数据进行拼接,得到对应的多个数据分表;拼接多个数据分表数据,得到待构建模型所需的数据宽表。此外,本发明专利技术还涉及区块链技术,用户基础信息与特征信息可存储于区块链中。构建得到层次分明的数据宽表,便于验证不同层次的表格数据准确性,及时定位问题,使得后续用于建模时,提升其执行效率。

【技术实现步骤摘要】
数据宽表构建方法、装置、设备及存储介质
本专利技术涉及大数据处理,尤其涉及一种数据宽表构建方法、装置、设备及存储介质。
技术介绍
在构建模型之前,通常需要构建数据宽表,而数据宽表由多张源表构成,通常指与建模相关的指标、维度、属性关联在一起的一张数据库表。宽表并不符合三范式的表格模型设计规范,而是将建模所需的所有数据拼接在一张表格中,虽然会带来数据的大量冗余,但预置相对应的好处是查询性能的提高与便捷,大大提升数据挖掘模型训练过程中迭代计算时的效率问题,典型的以空间换时间的数据存储格式,便有训练迭代,减少表关联数量,修改少量数据时不需要多张表格。一般而言,将多张三范式的源表拼接成一张包括全数据的宽表,主要是通过串行拼接的方式来实现,即根据建模面对的目标人群构建数据基准表,然后根据源表的人群特征依次拼接至数据基准表中,而这样的源表拼接方式得到的宽表存在诸多弊端,其一是源表中的数据不限定在宽表中拼接位置,导致得到的宽表数据存储层次不明显,其二是拼接过程中难以验证表格中数据存储的准确性,其三是若源表发散则导致拼接至宽表的数据量暴增,综上所述,即现有技术中数据宽表的拼接方式得到的数据宽表容易导致后期建模执行效率低。
技术实现思路
本专利技术的主要目的在于解决通过现有拼接方式得到的数据宽表存在执行效率低的技术问题。本专利技术第一方面提供了一种数据宽表构建方法,包括:获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;从多个预置数据存储分区中收集所述身份字段对应的特征数据;根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。可选地,在本专利技术第一方面的第一种实现方式中,所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表包括:解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。可选地,在本专利技术第一方面的第二种实现方式中,在所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表之后,还包括:判断所述数据基准表中身份字段的对应位置是否存在相同的字段;若存在,则生成对应的数据基准表配置错误的提示信息;若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。可选地,在本专利技术第一方面的第三种实现方式中,所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表包括:统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。可选地,在本专利技术第一方面的第四种实现方式中,在所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表之后,还包括:检测所述特征数据是否成功写入对应的数据分表;若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的拼接时间记录,并生成特殊数据拼接失败的提示信息以标识所述特征数据的本次拼接时间。可选地,在本专利技术第一方面的第五种实现方式中,在所述拼接所述多个数据分表数据,得到待构建模型所需的数据宽表之前,还包括:检验所述数据分表中是否存在相同的身份字段;若所述数据分表中存在相同的身份字段,则生成对应的数据分表拼接错误的提示信息并推送给开发者;若所述数据分表中不存在相同的身份字段,则根据所述目标变量计算所述数据分表的基准转化率;判断所述数据基准表与所述数据分表的基准转化率是否相等;若所述数据基准表与所述数据分表的基准转化率相等,则将所述数据分表接入所述数据宽表的拼接线程;若所述数据基准表与所述数据分表的基准转化率不相等,则生成对应的数据分表拼接错误的提示信息。本专利技术第二方面提供了一种数据宽表构建装置,包括:需求获取模块,用于获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;数据基准表配置模块,用于收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;特征数据收集模块,用于从多个预置数据存储分区中收集所述身份字段对应的特征数据;数据分表生成模块,用于根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;数据宽表生成模块,用于拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。可选地,在本专利技术第二方面的第一种实现方式中,所述数据基准表配置模块还包括:基础信息解析单元,用于解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;表格标题匹配单元,用于根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;数据基准表生成单元,用于根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。可选地,在本专利技术第二方面的第二种实现方式中,所述数据宽表构建装置还包括第一数据发散预警模块,所述第一数据发散预警模块用于:判断所述数据基准表中身份字段的对应位置是否存在相同的字段;若存在,则生成对应的数据基准表配置错误的提示信息;若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;根据所述目标变量和所述身份字段,计算所述数本文档来自技高网...

【技术保护点】
1.一种数据宽表构建方法,其特征在于,所述数据宽表构建方法包括:/n获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;/n收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;/n从多个预置数据存储分区中收集所述身份字段对应的特征数据;/n根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;/n拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。/n

【技术特征摘要】
1.一种数据宽表构建方法,其特征在于,所述数据宽表构建方法包括:
获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
从多个预置数据存储分区中收集所述身份字段对应的特征数据;
根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。


2.根据权利要求1所述的数据宽表构建方法,其特征在于,所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表包括:
解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;
根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;
根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。


3.根据权利要求2所述的数据宽表构建方法,其特征在于,在所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表之后,还包括:
判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
若存在,则生成对应的数据基准表配置错误的提示信息;
若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。


4.根据权利要求1所述的数据宽表构建方法,其特征在于,所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表包括:
统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。


5.根据权利要求4所述的数据宽表构建方法,其特征在于,在所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表之后,还包括:
检测所述特征数据是否成功写入对应的数据分表;
若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;
若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的...

【专利技术属性】
技术研发人员:蔡金成
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1