数据去重方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:27620308 阅读:13 留言:0更新日期:2021-03-10 10:59
本发明专利技术涉及金融科技(Fintech)技术领域,并公开了一种数据去重统计方法,该方法包括:确定ES中用户申请表的所有存储数据,计算各所述存储数据占用内存空间的占用空间总值,检测所述占用空间总值是否大于预设阀值;若所述占用空间总值大于预设阈值,则对各所述存储数据进行编码压缩处理,以获取编码压缩数据;对所述编码压缩数据进行分片处理,以得到所有分片,对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所述去重数组获取数据统计结果。本发明专利技术还公开了一种数据去重统计装置、设备和一种计算机可读存储介质。本发明专利技术提高了数据去重统计的精确性。明提高了数据去重统计的精确性。明提高了数据去重统计的精确性。

【技术实现步骤摘要】
数据去重方法、装置、设备及计算机可读存储介质


[0001]本专利技术涉及金融科技(Fintech)
,尤其涉及数据去重方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对数据去重技术提出了更高的要求。目前在去重统计的数据分析场景下,通常是采用Elasticsearch(搜索服务器)提供的近似去重统计函数cardinality(基数)做近似去重统计。但是采用cardinality函数做近似去重统计这种方式无法得到精确的结果,并且可配置精度的最大阀值也只是为40000,对于数据量大于阀值的数据统计存在有较大的误差,无法满足用户的需求。因此如何提高数据去重统计的精确性成为了目前急需解决的问题。

技术实现思路

[0003]本专利技术的主要目的在于提出一种数据去重统计方法、装置、设备及计算机可读存储介质,旨在解决如何提高数据去重统计的精确性的技术问题。
[0004]为实现上述目的,本专利技术提供一种数据去重统计方法,所述数据去重统计方法包括如下步骤:
[0005]确定ES中用户申请表的所有存储数据,计算各所述存储数据占用内存空间的占用空间总值,检测所述占用空间总值是否大于预设阀值;
[0006]若所述占用空间总值大于预设阈值,则对各所述存储数据进行编码压缩处理,以获取编码压缩数据;
[0007]对所述编码压缩数据进行分片处理,以得到所有分片,对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所述去重数组获取数据统计结果。
[0008]可选地,对各所述存储数据进行编码压缩处理,以获取编码压缩数据的步骤,包括:
[0009]将各所述存储数据的数据类型由原始数据类型压缩为目标数据类型,并对经过压缩处理后的各所述存储数据进行编码,以获取编码压缩数据。
[0010]可选地,对经过压缩处理后的各所述存储数据进行编码,以获取编码压缩数据的步骤,包括:
[0011]对经过压缩处理后的各所述存储数据进行编码,以获取编码数据,并检测是否接收到新增数据;
[0012]若接收到新增数据,则根据所述新增数据对所述编码数据进行更新,并将更新后的编码数据作为编码压缩数据。
[0013]可选地,对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所
述去重数组获取数据统计结果的步骤,包括:
[0014]根据预设数据格式函数对各所述分片的分片存储数据进行去重处理,以获取各所述分片对应的去重数组;
[0015]创建所述预设数据格式函数对应的新数据格式函数,根据所述新数据格式函数对各所述去重数组继续进行去重处理,以获取目标存储数据,并将所述目标存储数据作为数据统计结果。
[0016]可选地,根据预设数据格式函数对各所述分片的分片存储数据进行去重处理,以获取各所述分片对应的去重数组的步骤,包括:
[0017]依次遍历各所述分片,将遍历的分片中的存储数据作为分片存储数据,判断所述分片存储数据的字段值是否为非空值;
[0018]若是非空值,则将所述分片存储数据写入至预设数据格式函数进行去重处理,以获取去重数据,并将遍历的分片中的所有存储数据对应的去重数据作为遍历的分片对应的去重数组。
[0019]可选地,将所述分片存储数据写入至预设数据格式函数进行去重处理的步骤之后,包括:
[0020]确定各所述分片对应的链表,计算所述分片存储数据的哈希值,以所述哈希值为数组位置和各所述链表进行匹配;
[0021]若在各所述链表中存在目标链表和所述数组位置匹配,则检测所述目标链表中是否存在和所述分片存储数据相同的已存储数据;
[0022]若不存在,则在所述目标链表中新增所述分片存储数据。
[0023]可选地,计算各所述存储数据占用内存空间的占用空间总值的步骤,包括:
[0024]确定各所述存储数据对应的总字符串,并获取所述总字符串中字段值的字段值数量;
[0025]获取所述总字符串中所述存储数据的字符串长度,根据所述字符串长度和预设的最少占用字节计算字段长度;
[0026]计算所述字段长度和所述字段值数量的乘积,并将所述乘积作为所述占用空间总值。
[0027]此外,为实现上述目的,本专利技术还提供一种数据去重统计装置,所述数据去重统计装置包括:
[0028]计算模块,用于确定ES中用户申请表的所有存储数据,计算各所述存储数据占用内存空间的占用空间总值,检测所述占用空间总值是否大于预设阀值;
[0029]编码压缩模块,用于若所述占用空间总值大于预设阈值,则对各所述存储数据进行编码压缩处理,以获取编码压缩数据;
[0030]统计模块,用于对所述编码压缩数据进行分片处理,以得到所有分片,对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所述去重数组获取数据统计结果。
[0031]此外,为实现上述目的,本专利技术还提供一种数据去重统计设备,所述数据去重统计设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据去重统计程序,所述数据去重统计程序被所述处理器执行时实现如上所述的数据去重统计方法的
步骤。
[0032]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据去重统计程序,所述数据去重统计程序被处理器执行时实现如上所述的数据去重统计方法的步骤。
[0033]本专利技术通过确定ES中用户申请表的所有存储数据,计算各所述存储数据占用内存空间的占用空间总值,检测所述占用空间总值是否大于预设阀值;若所述占用空间总值大于预设阈值,则对各所述存储数据进行编码压缩处理,以获取编码压缩数据;对所述编码压缩数据进行分片处理,以得到所有分片,对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所述去重数组获取数据统计结果。通过计算ES中用户申请表的所有存储数据占用内存空间的内存空间总值,并在占用内存空间总值大于预设阀值时,对各个存储数据进行编码压缩处理,得到编码压缩数据,再对编码压缩数据进行分片处理和去重处理,得到去重数组,并根据去重数组得到数据统计结果,从而避免了现有技术中采用cardinality函数做近似去重统计这种方式无法得到精确的结果的现象发生,提高了数据去重统计的精确性。
附图说明
[0034]图1是本专利技术实施例方案涉及的硬件运行环境的数据去重统计设备结构示意图;
[0035]图2为本专利技术数据去重统计方法第一实施例的流程示意图;
[0036]图3为本专利技术数据去重统计装置的装置模块示意图;
[0037]图4为本专利技术数据去重统计方法中整体的流程示意图;
[0038]图5为本专利技术数据去重统计方法中编码压缩的流程示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据去重统计方法,其特征在于,所述数据去重统计方法包括如下步骤:确定ES中用户申请表的所有存储数据,计算各所述存储数据占用内存空间的占用空间总值,检测所述占用空间总值是否大于预设阀值;若所述占用空间总值大于预设阈值,则对各所述存储数据进行编码压缩处理,以获取编码压缩数据;对所述编码压缩数据进行分片处理,以得到所有分片,对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所述去重数组获取数据统计结果。2.如权利要求1所述的数据去重统计方法,其特征在于,所述对各所述存储数据进行编码压缩处理,以获取编码压缩数据的步骤,包括:将各所述存储数据的数据类型由原始数据类型压缩为目标数据类型,并对经过压缩处理后的各所述存储数据进行编码,以获取编码压缩数据。3.如权利要求2所述的数据去重统计方法,其特征在于,所述对经过压缩处理后的各所述存储数据进行编码,以获取编码压缩数据的步骤,包括:对经过压缩处理后的各所述存储数据进行编码,以获取编码数据,并检测是否接收到新增数据;若接收到新增数据,则根据所述新增数据对所述编码数据进行更新,并将更新后的编码数据作为编码压缩数据。4.如权利要求1所述的数据去重统计方法,其特征在于,所述对各所述分片的分片存储数据进行去重处理,以获取去重数组,并根据所述去重数组获取数据统计结果的步骤,包括:根据预设数据格式函数对各所述分片的分片存储数据进行去重处理,以获取各所述分片对应的去重数组;创建所述预设数据格式函数对应的新数据格式函数,根据所述新数据格式函数对各所述去重数组继续进行去重处理,以获取目标存储数据,并将所述目标存储数据作为数据统计结果。5.如权利要求4所述的数据去重统计方法,其特征在于,所述根据预设数据格式函数对各所述分片的分片存储数据进行去重处理,以获取各所述分片对应的去重数组的步骤,包括:依次遍历各所述分片,将遍历的分片中的存储数据作为分片存储数据,判断所述分片存储数据的字段值是否为非空值;若是非空值,则将所述分片存储数据写入至预设数据格式函数进行去重处理,以获取去重数据...

【专利技术属性】
技术研发人员:沈立王大飞
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1