【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种数据分布分析方法、装置、设备及介质。
技术介绍
1、由于外部监管或内部控制等要求,在某些情况下生产环境中的数据无法较为便捷地复制到测试环境中进行测试,如,有些数据无法搬运,或者必须脱敏加工后才能搬运。另外,测试环境与生成环境的数据承载能力是不同的,即使生产环境中的数据可以直接复制到测试环境中,测试环境也无法承载如此巨量的数据。
2、为了在测试环境中进行相应的测试,需要在测试环境中构造与生产环境中类似的数据,尽可能的在测试过程中模拟真实的运行情况。相关技术中,在构造与生产环境中类似的数据时,通常是人工对生产环境中的数据分布进行多维度统计,并根据统计结果构造相应的数据。如果测试环境中构造出来的数据的数据分布与生成环境中的数据分布不同,那么测试结果也必定是不准确的。
3、因此,如何确定数据的数据分布情况是否一致成为亟待解决的问题。
技术实现思路
1、本申请实施提供了一种数据分布分析方法、装置、设备及介质,用以确定数据的数据分布是否一致。
...【技术保护点】
1.一种数据分布分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述分别统计所述每个数据集合中每组数据的第一出现频率,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据该数据集合的每组数据的第一出现频率,确定该数据集合的第一数据分布矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预先训练完成的特征提取模型,提取每个第一数据分布矩阵对应的目标特征,包括:
5.根据权利要求4所述的方法,其特征在于,若所述特征处理层包括多个卷积层和一个全局最大池化层,所述将所述密集向量输
...【技术特征摘要】
1.一种数据分布分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述分别统计所述每个数据集合中每组数据的第一出现频率,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据该数据集合的每组数据的第一出现频率,确定该数据集合的第一数据分布矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预先训练完成的特征提取模型,提取每个第一数据分布矩阵对应的目标特征,包括:
5.根据权利要求4所述的方法,其特征在于,若所述特征处理层包括多个卷积层和一个全局最大池化层,所述将所述密集向量输入到特征处理层,得到第二特征向量,包括:
6.根据权利要求4所述的方法,其特征在于,若所述特征处理层包括多个卷积层和多个全局最大池化层,任一处理单元包括一个卷积层与一个全局最大池化层,且全局最大池化层连接在卷积层之后,多个处理单元依次连接;
7.根据权利要求1所述的方法,其特征在于,所述特征提取模型的训练过程包括:
8.一种数据分布分析装置,其特征在于,所述装置包括:
9.根据权利要求8所述的装置,其特征在于,所述确定模块,具体用于针对每个数据集合中的每组数据,基于该数据组的分组策略将该数据组中的每个数据划分到对应的子数据组中;根据每个子数据组中包括的数据的第一数量和该数据集合中包括的数据的第二数量,确定该数据组的每个子数据组对应的第一出现频率。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,具体用于针对该数据集合的每个数据组,根据该数据组的每个子数据组的第一出现频率,选取预设数量的目标出现频率;按照每个目标出现频率的大小,依次将目标出现频率填充到预设矩阵模板中,得到该数据组的第二数据分布矩阵;根据该数据集合的每个数据组的第二数据分布矩阵,确定该数据集合的第一数据分布矩阵。
11.根据权利要求8所述的装置,...
【专利技术属性】
技术研发人员:聂砂,罗奕康,戴菀庭,丁苏苏,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。