自适应表粒度的数据生成方法技术

技术编号:39641645 阅读:5 留言:0更新日期:2023-12-09 11:08
本发明专利技术涉及人工智能及数字金融技术,揭露了金融大数据的数据探索场景下的一种自适应表粒度的数据生成方法

【技术实现步骤摘要】
自适应表粒度的数据生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能及数字金融
,尤其涉及金融大数据的数据探索场景下的一种自适应表粒度的数据生成方法

装置

设备及计算机可读存储介质


技术介绍

[0002]目前,金融行业中的贷款分析,或客户意愿分析等业务分析之前,均需要进行数据探索

但在源端数据进行数据探索时,经常发现源端系统经过多次迭代后,其源端表中存在多个粒度的数据,给数仓人员确定该表的粒度和关联主键带来了不小的困难

[0003]如今的数据探索过程中,主要由分析人员自定义来指定维度,并对维度进行数据分析,然后分析人员查看数据分析结果,并主观判断是否增加维度进行下钻分析,最终达到分析人员主观认同的维度,将维度配置成表粒度,对数据进行清洗,得到表粒度对应的数据

其中,耗费大量的时间与人力,配置的表粒度的准确性误差较大,且分析人员的主观性较大,且不适合其他分析人员承接使用


技术实现思路

[0004]本专利技术提供一种自适应表粒度的数据生成方法

装置

设备及存储介质,其主要目的在于在金融大数据数据探索场景中通过自适应识别适合业务问题的表粒度,生成更科学合理的待分析数据

[0005]为实现上述目的,本专利技术提供的一种自适应表粒度的数据生成方法,包括:
[0006]步骤
A
:从预构建的业务系统集群中获取原始数据,并对所述原始数据进行指标重要性排序,得到业务重要维度顺序表,并根据所述业务重要维度顺序表,获取初始化维度;
[0007]步骤
B
:根据所述初始化维度对所述原始数据进行表粒度分析,得到所述原始数据在所述初始化维度下的发散情况;
[0008]步骤
C
:利用预训练的下钻分析决策模型,根据所述发散情况,判断是否对所述原始数据进行下钻分析;
[0009]当判断结果为需要对所述原始数据进行下钻分析时,步骤
D
:根据预设的业务重要维度顺序表对所述初始化维度进行维度增加,得到更新维度,并返回步骤
B
的操作,根据所述更新维度对所述原始数据进行表粒度分析;
[0010]当判断结果为不需要对所述原始数据进行下钻分析时,步骤
E
:配置所述初始化维度作为自适应表粒度,并根据所述自适应表粒度对所述原始数据进行数据清洗,生成自适应表粒度的数据

[0011]可选的,所述根据所述初始化维度对所述原始数据进行表粒度分析,得到所述原始数据在所述初始化维度下的发散情况,包括:
[0012]获取所述初始化维度下汇总统计条数大于1的第一部分原始数据,获取所述第一部分原始数据的条数及创建时间;
[0013]获取所述初始化维度下汇总统计条数等于1的第二部分原始数据,获取所述第二
部分原始数据的条数及创建时间;
[0014]根据所述第一部分原始数据的条数及创建时间,构建直方图构建,得到数据分布情况,及根据所述第二部分原始数据的条数及创建时间,构建折线图,得到数据变化趋势;
[0015]将所述数据分布情况及所述数据变化趋势进行组合输出,得到所述原始数据在所述初始化维度下的发散情况

[0016]可选的,所述利用预训练的下钻分析决策模型,根据所述发散情况,判断是否对所述原始数据进行下钻分析,包括:
[0017]利用预训练的下钻分析决策模型对所述发散情况进行发散特征提取,得到发散特征序列;
[0018]根据所述初始化维度,对所述原始数据进行特征工程特征提取,得到业务特征序列;
[0019]根据所述业务特征序列,判断所述初始化维度的业务问题复杂度,并根据所述发散特征序列,判断所述分散情况是否满足所述业务问题复杂度;
[0020]当所述分散情况不能满足所述业务问题复杂度时,判定需要对所述原始数据进行下钻分析

[0021]可选的,所述从预构建的业务系统集群中获取原始数据,并对所述原始数据进行指标重要性排序,得到业务重要维度顺序表,包括:
[0022]根据预设的业务需求,从预构建的企业总系统中筛选得到业务系统集群;
[0023]从所述业务系统集群中获取原始数据,并对所述原始数据进行主成分分析,得到主成分字段集合;
[0024]根据预构建的专家配置标签对所述主成分字段集合进行顺序微调,得到业务重要维度顺序表

[0025]可选的,所述利用预训练的下钻分析决策模型之前,所述方法还包括:
[0026]获取预构建的初始化二分类决策模型,获取预处理的业务场景数据集合;
[0027]对所述业务场景数据集合进行特征工程提取,得到训练样本集;
[0028]依次从所述训练样本集中提取目标样本,利用所述初始化二分类决策模型对所述目标样本进行是否下钻分析判断,得到预测结果;
[0029]利用交叉熵损失算法,计算所述目标样本对应的真实标签与所述预测结果的损失值,并最小化所述损失值,得到所述损失值最小时的模型参数,并根据所述模型参数对所述初始化二分类决策模型进行逆向网络更新,得到更新二分类决策模型;
[0030]记录所述损失值,得到损失值曲线,并判断所述损失值曲线的收敛性;
[0031]当所述损失值曲线未收敛时,返回上述依次从所述训练样本集中提取目标样本的操作,对所述更新二分类决策模型进行迭代优化;
[0032]当所述损失值曲线收敛时,得到训练完成的下钻分析决策模型

[0033]为了解决上述问题,本专利技术还提供一种自适应表粒度的数据生成装置,所述装置包括:
[0034]数据维度初始化模块,用于从预构建的业务系统集群中获取原始数据,并对所述原始数据进行指标重要性排序,得到业务重要维度顺序表,并根据所述业务重要维度顺序表,获取初始化维度;
[0035]表粒度发散分析模块,用于根据所述初始化维度对所述原始数据进行表粒度分析,得到所述原始数据在所述初始化维度下的发散情况;
[0036]下钻分析判断模块,用于利用预训练的下钻分析决策模型,根据所述发散情况,判断是否对所述原始数据进行下钻分析;
[0037]循环遍历模块,用于当判断结果为需要对所述原始数据进行下钻分析时,根据预设的业务重要维度顺序表对所述初始化维度进行维度增加,得到更新维度,并返回所述表粒度发散分析模块的操作,根据所述更新维度对所述原始数据进行表粒度分析;
[0038]数据生成模块,用于当判断结果为不需要对所述原始数据进行下钻分析时,配置所述初始化维度作为自适应表粒度,并根据所述自适应表粒度对所述原始数据进行数据清洗,生成自适应表粒度的数据

[0039]可选的,所述根据所述初始化维度对所述原始数据进行表粒度分析,得到所述原始数据在所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种自适应表粒度的数据生成方法,其特征在于,所述方法包括:步骤
A
:从预构建的业务系统集群中获取原始数据,并对所述原始数据进行指标重要性排序,得到业务重要维度顺序表,并根据所述业务重要维度顺序表,获取初始化维度;步骤
B
:根据所述初始化维度对所述原始数据进行表粒度分析,得到所述原始数据在所述初始化维度下的发散情况;步骤
C
:利用预训练的下钻分析决策模型,根据所述发散情况,判断是否对所述原始数据进行下钻分析;当判断结果为需要对所述原始数据进行下钻分析时,步骤
D
:根据预设的业务重要维度顺序表对所述初始化维度进行维度增加,得到更新维度,并返回步骤
B
的操作,根据所述更新维度对所述原始数据进行表粒度分析;当判断结果为不需要对所述原始数据进行下钻分析时,步骤
E
:配置所述初始化维度作为自适应表粒度,并根据所述自适应表粒度对所述原始数据进行数据清洗,生成自适应表粒度的数据
。2.
如权利要求1所述的自适应表粒度的数据生成方法,其特征在于,所述根据所述初始化维度对所述原始数据进行表粒度分析,得到所述原始数据在所述初始化维度下的发散情况,包括:获取所述初始化维度下汇总统计条数大于1的第一部分原始数据,获取所述第一部分原始数据的条数及创建时间;获取所述初始化维度下汇总统计条数等于1的第二部分原始数据,获取所述第二部分原始数据的条数及创建时间;根据所述第一部分原始数据的条数及创建时间,构建直方图构建,得到数据分布情况,及根据所述第二部分原始数据的条数及创建时间,构建折线图,得到数据变化趋势;将所述数据分布情况及所述数据变化趋势进行组合输出,得到所述原始数据在所述初始化维度下的发散情况
。3.
如权利要求1所述的自适应表粒度的数据生成方法,其特征在于,所述利用预训练的下钻分析决策模型,根据所述发散情况,判断是否对所述原始数据进行下钻分析,包括:利用预训练的下钻分析决策模型对所述发散情况进行发散特征提取,得到发散特征序列;根据所述初始化维度,对所述原始数据进行特征工程特征提取,得到业务特征序列;根据所述业务特征序列,判断所述初始化维度的业务问题复杂度,并根据所述发散特征序列,判断所述分散情况是否满足所述业务问题复杂度;当所述分散情况不能满足所述业务问题复杂度时,判定需要对所述原始数据进行下钻分析
。4.
如权利要求1所述的自适应表粒度的数据生成方法,其特征在于,所述从预构建的业务系统集群中获取原始数据,并对所述原始数据进行指标重要性排序,得到业务重要维度顺序表,包括:根据预设的业务需求,从预构建的企业总系统中筛选得到业务系统集群;从所述业务系统集群中获取原始数据,并对所述原始数据进行主成分分析,得到主成分字段集合;
根据预构建的专家配置标签对所述主成分字段集合进行顺序微调,得到业务重要维度顺序表
。5.
如权利要求1所述的自适应表粒度的数据生成方法,其特征在于,所述利用预训练的下钻分析决策模型之前,所述方法还包括:获取预构建的初始化二分类决策模型,获取预处理的业务场景数据集合;对所述业务场景数据集合进行特征工程提取,得到训练样本集;依次从所述训练样本集中提取目标样本,利用所述初始化二分类决策模型对所述目标样本进行是否下钻分析判断,得到预测结果;利用交叉熵损失算法,计算所述目标样本对应的真实标签...

【专利技术属性】
技术研发人员:黄学亮
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1