确定文件中数据类型的方法、装置、设备及存储介质制造方法及图纸

技术编号:33444585 阅读:70 留言:0更新日期:2022-05-19 00:30
本申请公开了一种确定文件中数据类型的方法、装置、设备及存储介质,该方法可以包括:获取参考文件中存储的各数据和目标文件中存储的目标数据;获取预设位数组和N个不同的哈希函数,N为大于或等于预设数值的正整数;基于预设位数组的数组长度和N个不同的哈希函数,依次对各数据和目标数据进行计算,获得各数据各自对应的参考运算结果和目标数据的判断运算结果;根据参考运算结果、预设位数组和判断运算结果,确定目标数据相对参考文件的数据类型;其中,数据类型包括交集数据或差集数据。上述方案可以以较小的运算量快速、准确地确定出目标数据相对参考文件的数据类型,该实现方式不仅运算简单,还具有占用较小系统资源的优势。势。势。

【技术实现步骤摘要】
确定文件中数据类型的方法、装置、设备及存储介质


[0001]本申请实施例涉及数据处理领域,尤其涉及一种确定文件中数据类型的方法、装置、设备及存储介质。

技术介绍

[0002]目前,各行业主要是以文件形式存储数据,但如果存储数据的文件过大,那么在读取数据时,会导致占用内存资源过高,对文件中存储的数据做数据类型计算时,耗时较高,这样也容易引发系统内存溢出问题。
[0003]常用的解决方案中,一种是将多个文件读取进内存,但是,多个文件同时读进内存时,系统内存使用率会升高,尤其在多个用户同时操作的情况下,系统会频繁出现清理堆空间(FULL GC),导致系统反应迟钝,甚至内存溢出,无法正常使用。另一种是将大文件拆分为多个小文件,这样虽然会降低系统内存占用,但磁盘读取次数将会变高,耗时也会增加。

技术实现思路

[0004]本申请实施例提供了一种确定文件中数据类型的方法、装置、设备及存储介质,能够以较小的运算量快速、准确地确定出目标数据为参考文件和目标文件中的交集数据或差集数据,该实现方式不仅运算简单,还具有占用较小系统资源的优势。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种确定文件中数据类型的方法,其特征在于,包括:获取参考文件中存储的各数据和目标文件中存储的目标数据;获取预设位数组和N个不同的哈希函数,N为大于或等于预设数值的正整数;基于所述预设位数组的数组长度和所述N个不同的哈希函数,依次对所述各数据和所述目标数据进行计算,获得所述各数据各自对应的参考运算结果和所述目标数据的判断运算结果;根据所述参考运算结果、所述预设位数组和所述判断运算结果,确定所述目标数据相对所述参考文件的数据类型;其中,所述数据类型包括交集数据或差集数据。2.根据权利要求1所述的方法,其特征在于,N个哈希函数的函数形式不同;或者,所述N个哈希函数的函数形式相同,且所述N个哈希函数的参数不同。3.根据权利要求1所述的方法,其特征在于,所述各数据中的任意一条数据对应有N个参考运算结果;一条所述目标数据对应有N个判断运算结果;所述N个参考运算结果和所述N个判断运算结果分别与所述N个不同的哈希函数呈对应关系。4.根据权利要求1

3任一项所述的方法,其特征在于,所述基于所述预设位数组的数组长度和所述N个不同的哈希函数,依次对所述各数据和所述目标数据进行计算,获得所述各数据各自对应的参考运算结果和所述目标数据的判断运算结果,包括:基于所述N个不同的哈希函数依次对所述各数据和所述目标数据进行计算,分别获得所述各数据各自对应的哈希结果和所述目标数据的哈希结果;基于所述预设位数组的数组长度依次对所述各数据各自对应的哈希结果和所述目标数据的哈希结果进行取模运算,分别获得所述各数据各自对应的取模结果和所述目标数据的取模结果;将所述各数据各自对应的取模结果和所述目标数据的取模结果,分别确定为所述各数据各自对应的参考运算结果和所述目标数据的判断运算结果。5.根据权利要求1

3任一项所述的方法,其特征在于,所述根据所述参考运算结果、所述预设位数组和所述判断运算结果,确定所述目标数据相对参考文件的数据类型,包括:根据所述参考运算结果更新所述预设位数组的数组内容;将所述判断运算结果与更新后的预设位数组进行...

【专利技术属性】
技术研发人员:宫超赵月明刘丹谭龙
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1