System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种同态压缩数据处理方法和系统技术方案_技高网

一种同态压缩数据处理方法和系统技术方案

技术编号:40278499 阅读:12 留言:0更新日期:2024-02-02 23:06
本发明专利技术涉及一种同态压缩数据处理方法和系统,包括以下步骤:对定义的各同态压缩方案进行收集验证后,存储在存储库;在用户输入数据后,根据预设规则在存储库中选择相应的同态压缩方案对输入数据进行数据压缩;在收到用户的数据请求处理后,基于用户指定的压缩数据和选择的同态压缩方案生成直接处理压缩数据的可执行文件,对压缩数据进行直接处理。本发明专利技术提出的同态压缩数据管理系统实现了底层压缩算法与上层应用的解耦合,通过同态计算编译器将应用层未压缩数据处理代码转换成适应底层压缩算法的同态操作,降低了系统部署的复杂度和成本,可以广泛应用于大数据处理领域。

【技术实现步骤摘要】

本专利技术涉及一种同态压缩数据处理方法和系统,属于大数据处理。


技术介绍

1、随着互联网的广泛普及和数字化转型的不断推进,可捕获、存储和传输的数据已经扩展到前所未有的规模。这种数据的爆炸性增长不仅创造了巨大的机遇,也带来了严峻的时空挑战。压缩技术是解决大数据挑战的关键手段。通过采用压缩算法,数据文件的体积得以显著减小,从而提高了存储效率并降低了传输带宽的需求。然而,压缩技术引入了额外的数据处理时间开销,因为数据需要在存储、传输、分析等过程中频繁地进行压缩和解压缩操作。在选择压缩算法时,需要综合考虑压缩率和(解)压缩时间两个因素。单纯基于压缩率选择算法未必明智,因为高压缩率通常伴随着更大的(解)压缩时间开销。因此,数据管理系统应该在减少存储和传输成本的同时,也考虑压缩算法的附加计算成本,以实现最佳的平衡。

2、现有的压缩数据直接计算研究实现了在压缩数据上直接完成分析操作,从而绕过昂贵的压缩和解压缩步骤。尽管这些研究方案有望在数据分析应用程序中实现高压缩比和性能改进,但仍具有以下局限性:

3、在算法实现层面,目前的压缩数据直接计算方案主要关注只读负载,而对于修改操作(例如插入和删除)的支持相对有限。因此,这些解决方案通常需要在处理修改任务时反复进行解压缩和重新压缩,导致高昂的计算成本,从而限制了实际应用的可行性。例如,succinct是一种支持使用基于索引和后缀数组的压缩技术进行压缩数据查询的数据库,但由于其压缩元素之间的相互依赖性,小单元数据的更新效率极低。另外,现有的方法通常在辅助数据结构中记录数据修改,而不是直接在数据中反映修改,这也带来了额外的访问开销。例如,tadoc提供了对压缩数据的插入操作,但会将相关信息记录在另一个数据结构中,而不是直接修改压缩数据,后续操作需要额外的访问来确保数据的正确性。

4、在数据管理层面,尽管压缩数据直接计算已经显示出潜在性能优势和研究前景,但目前尚未形成对于这一概念的共识和整体理解。具体而言,对于压缩数据直接计算的定义、性质等方面缺乏明晰的界定。对于哪些压缩算法能够支持压缩数据直接计算,或者以何种程度支持这一概念,也尚未明确。为了利用压缩数据直接计算技术进行有效地数据管理,迫切需要对该技术进行清晰而全面的研究和认知。

5、在系统设计层面,现有的压缩数据直接计算方案研究都是孤立的,它们依赖于截然不同的压缩算法。这导致上层应用程序的实现与底层压缩算法的内部机制紧密耦合,从而增加了用户的使用成本。具体而言,用户需要深入了解特定压缩算法的内部工作原理,并在编写应用程序时考虑压缩数据的特性,才能够实现压缩数据上的直接计算。这对用户来说要求相当高,带来了较大的使用复杂性。为了实现无痛迁移应用程序以在压缩数据上执行计算,必须将底层压缩算法与上层应用程序隔离开来,以实现透明的压缩数据直接计算。这意味着应用程序实现可以从未压缩的数据的角度出发,通过中间件的转换机制,将操作分发到压缩数据上。此外,系统还需要实现对不同底层压缩算法的抽象化,以确保操作的转换和优化方法能够一致地应用于各种不同的压缩算法之上。


技术实现思路

1、针对上述问题,本专利技术的目的是提供一种同态压缩数据处理方法和系统,通过系统归纳各压缩数据直接计算方法的功能、特性和适用范围,形成同态压缩理论,基于该同态压缩理论对多种底层压缩算法与上层应用程序进行解耦,以满足不同数据处理场景的需求。

2、为实现上述目的,本专利技术采取以下技术方案:

3、第一方面,本专利技术提供一种同态压缩数据处理方法,包括以下步骤:

4、对定义的各同态压缩方案进行收集验证后,存储在存储库;

5、在用户输入数据后,根据预设规则在存储库中选择相应的同态压缩方案对输入数据进行数据压缩;

6、在收到用户的数据请求处理后,基于用户指定的压缩数据和选择的同态压缩方案生成直接处理压缩数据的可执行文件,对压缩数据进行直接处理。

7、进一步,所述对定义的各同态压缩方案进行收集验证后,存储在存储库,包括:

8、对定义的各同态压缩方案的基本要素进行收集,所述基本要素至少包括压缩算法、解压缩算法、同态计算的定义;

9、基于收集的各同态压缩方案的基本要素进行评估验证,并将验证通过的同态压缩方案存储在存储库中。

10、进一步,所述基于收集的各同态压缩方案的基本要素进行评估验证,并将验证通过的同态压缩方案存储在存储库中,包括:

11、基于预定义的测试数据集,对同态压缩方案中定义的压缩算法和解压缩算法的正确性进行确认,以验证同态压缩方案是否具有合法性;

12、对具有合法性的同态压缩方案进行同态计算的正确性、直接性和强同态属性验证;

13、基于同态压缩方案所实现的同态属性,对同态压缩方案进行分类后,正式注册并存储在存储库。

14、进一步,所述基于同态压缩方案所实现的同态属性,对同态压缩方案进行分类,包括:

15、①非同态压缩方案,其不满足直接性,计算过程需要解压缩和重压缩;

16、②有限同态压缩方案,其满足正确性和直接性,所有操作均不满足强同态性;

17、③部分同态压缩方案,其满足正确性、直接性,部分操作满足强同态性;

18、④完全同态压缩方案,其满足正确性、直接性,所有操作都满足强同态性。

19、进一步,所述定义的同态压缩方案至少包括基于tadoc技术的同态压缩方案,该方案的同态计算包括以下四种基础操作:

20、提取操作,所述提取操作从根规则开始遍历压缩数据dag,跟踪当前偏移,直到从给定的起始偏移位置开始提取给定长度的字符串;

21、插入操作,所述插入操作从根规则开始遍历压缩数据dag,跟踪当前偏移,直到确定给定的起始偏移位置,并根据插入点是否在根规则内部执行插入操作;

22、删除操作,所述删除操作从根规则开始遍历压缩数据dag,跟踪当前偏移,直到确定给定的起始偏移位置,并根据修改点的起始和结束位置是否在根节点内部进行删除操作;

23、符号比较操作,所述符号比较操作用于比较字符和规则,所述规则需要通过深度优先搜索比较它们表示的符号字符串。

24、进一步,所述在用户输入数据后,根据预设规则在存储库中选择相应的同态压缩方案对输入数据进行数据压缩,包括以下步骤:

25、根据用户指定的同态压缩方案或基于输入数据属性和用户要求确定最合适的同态压缩方案;

26、利用最合适的同态压缩方案对输入数据进行压缩,并利用预设路径管理和元数据管理机制对数据状态进行区分,得到压缩数据并记录对应的元数据。

27、进一步,所述基于输入数据属性和用户要求确定最合适的同态压缩方案,包括:

28、获取用户需求,包括用户预期的数据处理类型以及操作频率;

29、基于用户需求,利用排名模型截取部分输入数据并提取关键特征,并基于预设多层感知器神经网络对关键特征进行处本文档来自技高网...

【技术保护点】

1.一种同态压缩数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种同态压缩数据处理方法,其特征在于,所述对定义的各同态压缩方案进行收集验证后,存储在存储库,包括:

3.如权利要求2所述的一种同态压缩数据处理方法,其特征在于,所述基于收集的各同态压缩方案的基本要素进行评估验证,并将验证通过的同态压缩方案存储在存储库中,包括:

4.如权利要求3所述的一种同态压缩数据处理方法,其特征在于,所述基于同态压缩方案所实现的同态属性,对同态压缩方案进行分类,包括:

5.如权利要求2所述的一种同态压缩数据处理方法,其特征在于,所述定义的同态压缩方案至少包括基于TADOC技术的同态压缩方案,该方案的同态计算包括以下四种基础操作:

6.如权利要求1所述的一种同态压缩数据处理方法,其特征在于,所述在用户输入数据后,根据预设规则在存储库中选择相应的同态压缩方案对输入数据进行数据压缩,包括以下步骤:

7.如权利要求6所述的一种同态压缩数据处理方法,其特征在于,所述基于输入数据属性和用户要求确定最合适的同态压缩方案,包括:

8.如权利要求1所述的一种同态压缩数据处理方法,其特征在于,所述在收到用户的数据请求处理后,基于用户指定的压缩数据和选择的同态压缩方案生成直接处理压缩数据的可执行文件,对压缩数据进行直接处理,包括以下步骤:

9.如权利要求8所述的一种同态压缩数据处理方法,其特征在于,所述预设优化机制包括基于哈希的快速压缩偏移定位、压缩数据分块组织和基于记录树的延迟物化技术。

10.一种同态压缩数据处理系统,其特征在于,包括:

11.如权利要求10所述的一种同态压缩数据处理系统,其特征在于,所述同态压缩方案收集模块包括:

12.如权利要求10所述的一种同态压缩数据处理系统,其特征在于,所述同态计算模块,包括:

13.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至9所述方法中的任一方法。

14.一种计算设备,其特征在于,包括:一个或多个处理器及存储器,所述存储器中存储有一个或多个程序,并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至9所述方法中的任一方法的指令。

...

【技术特征摘要】

1.一种同态压缩数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种同态压缩数据处理方法,其特征在于,所述对定义的各同态压缩方案进行收集验证后,存储在存储库,包括:

3.如权利要求2所述的一种同态压缩数据处理方法,其特征在于,所述基于收集的各同态压缩方案的基本要素进行评估验证,并将验证通过的同态压缩方案存储在存储库中,包括:

4.如权利要求3所述的一种同态压缩数据处理方法,其特征在于,所述基于同态压缩方案所实现的同态属性,对同态压缩方案进行分类,包括:

5.如权利要求2所述的一种同态压缩数据处理方法,其特征在于,所述定义的同态压缩方案至少包括基于tadoc技术的同态压缩方案,该方案的同态计算包括以下四种基础操作:

6.如权利要求1所述的一种同态压缩数据处理方法,其特征在于,所述在用户输入数据后,根据预设规则在存储库中选择相应的同态压缩方案对输入数据进行数据压缩,包括以下步骤:

7.如权利要求6所述的一种同态压缩数据处理方法,其特征在于,所述基于输入数据属性和用户要求确定最合适的同态压缩方案,包括:

8.如权利要求1所述的一...

【专利技术属性】
技术研发人员:张峰官佳薇杜小勇
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1