当前位置: 首页 > 专利查询>暨南大学专利>正文

一种面向数据起源系统的自适应数据合并存储方法技术方案

技术编号:22295420 阅读:16 留言:0更新日期:2019-10-15 04:35
本发明专利技术公开了一种面向数据起源系统的自适应数据合并存储方法,旨在解决数据起源系统收集信息过程中,细粒度收集的溯源信息中存在大量冗余以及数据信息中存在大量小数据的问题。该自适应数据合并存储方法通过对溯源信息进行类字典编码压缩,删减溯源信息中的冗余。对数据信息中的小数据利用溯源信息的相关性进行自适应合并:减少数据信息的存储开销。本发明专利技术减少了溯源信息和数据信息的存储开销;同时在查询数据时,由于合并了相关小数据,提升了数据查询速度。

An Adaptive Data Merge Storage Method for Data Origin System

【技术实现步骤摘要】
一种面向数据起源系统的自适应数据合并存储方法
本专利技术涉及存储系统
,具体涉及一种面向数据起源系统的自适应数据合并存储方法。
技术介绍
数据起源系统收集到的溯源信息和数据信息,当前国内外存在大量针对溯源信息优化的研究,但未有针对数据信息的优化研究。其中针对溯源信息的优化方式主要集中在删除冗余信息,过滤无用溯源信息以及选择性存储溯源信息等几个方面。第一类方法是极大限度地减少收集到的溯源信息。这类方法认为当前数据起源系统不可避免存储了过多的信息“噪音”,这些无用的信息是导致溯源信息的巨大存储开销和时间开销的原因。因此提出了一种基于属性限制策略的剪枝算法,然后将其运用到其设计的“起源墙”模块中。“起源墙”跟踪系统并产生一个系统执行图,通过剪枝算法来判断当前获取的溯源信息是存储还是丢弃。还有一种方法与之相近的,该方法认为不必保留所有收集到的溯源信息,而是选择性保留部分结果。该方法将溯源信息的获取分为直接读取存储的溯源信息和由其他溯源信息推理获得的溯源信息。由于溯源信息会持续不断地记录一个数据的变迁,因此可以通过溯源信息可以重新推出目标结果。该方法提出一种权衡算法——计算出直接存储结果的开销和间接存储历史数据并运算出结果的开销,选择存储代价最低的方式。选择性存储溯源信息能有效减少存储空间。但是在选择的过程中,选取的条件因素可能带有使用者的主观性。而相同条件下有不确定结果的科学实验中,后者的算法就不是那么有效了。另一种方法是对收集到的溯源信息进行压缩。例如在工作流的溯源信息记录中,一些节点数据会存在多次记录的情况,当前提出了一种类似树型结构的嵌套模型,减少重复溯源信息的记录。同样存在类似方法,通过自定义了多项规则将溯源信息规范化,根据规范化的溯源信息组构建溯源信息查询树,进而对溯源信息查询树进行优化:将树中重复的数据进行删除并且在该处引用一个“最终”版本。这种方法能够在不影响使用的情况下有效地对冗余进行删除。还有在更细粒度上对溯源信息中的冗余进行删除。该方法利用溯源信息图和web图的相似性,对溯源信息进行web压缩,减少溯源信息之间的冗余。再结合字典编码,减少重复的前缀,在更细的粒度上减少冗余。以上算法是针对溯源信息的优化方法,大多是离线利用溯源关系图针对溯源信息优化。但是在数据起源系统中在线收集溯源信息和数据信息,因此数据量巨大,以上算法都未考虑数据信息的优化,不适用于数据起源系统中。因此针对此问题亟待提出了一种面向数据起源系统的自适应数据合并存储方法。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,公开了一种面向数据起源系统的自适应数据合并存储方法。本专利技术的目的可以通过采取如下技术方案达到:一种面向数据起源系统的自适应数据合并存储方法,所述的自适应数据合并存储方法包括以下步骤:使用数据起源系统收集信息:当进程执行时,数据起源系统会自动拦截并收集的该进程的起源信息,其中,所述的起源信息包括溯源信息和数据信息,所述的溯源信息是用于描述进程或者文件的元数据,所述的数据信息是进程发生写操作时写入的内容;判断收集到的起源信息是溯源信息还是数据信息,根据当前收集到起源信息的类型,进行不同的优化存储方式;若收集到的起源信息是溯源信息,则利用一种字典编码方式对溯源信息进行压缩,初始设置一个小字典,读取溯源信息,首先查询溯源信息中的内容是否在小字典中存在对应编码,若不存在,将溯源信息的各项内容进行编码,将编码存入小字典中,并将原本溯源信息中的内容用编码代替后,存储到键值数据库中,若存在,则按小字典中对应编码代替溯源信息,存储到键值数据库中;若收集到的起源信息是数据信息,则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储,所述的小数据是指数据信息大小小于数据信息平均值大小一半的数据信息,首先使用一个调节器统计当前数据信息的大小,并计算出当前数据信息的阈值,设置合并窗口的窗口值为两倍阈值,读取数据信息,上述的合并窗口是一个缓存区,用于暂时存储小数据;若当前收集的数据信息的大小大于阈值,则直接存储到键值数据库中,若当前收集的数据信息的大小小于阈值,则将其加入合并窗口并获取其相关的溯源信息;当合并窗口缓存的数据信息大小总和大于窗口值时,对合并窗口内部数据按照溯源信息的属性进行排序,然后按照每条大小不大于阈值的方式存储到键值数据库中。进一步地,所述的数据起源系统包括用户系统层、虚拟文件系统层、起源信息收集层和底层文件系统,当外部进程执行时,数据起源系统会将进程的信息传送,经过虚拟文件系统层、起源信息收集层,最后到达底层文件系统,其中起源信息收集层用于收集起源信息。进一步地,所述的小字典的存储区间具有上限阈值,适用于在线系统,存储区间的上限阈值不小于当前进程的最大数。进一步地,所述的若收集到的起源信息是溯源信息,则利用一种字典编码方式对溯源信息进行压缩的过程如下:对溯源信息编码时,先读取溯源信息,查询进程号、TID、CPU、文件名信息是否存在于当前小字典中,若存在相同信息,则查询小字典中对应的编码并用编码替代溯源信息中原本的信息;若不存在相同信息,则编码进程号、TID、CPU、文件名信息并将编码信息加入小字典,然后用编码代替溯源信息中原本的信息;在将新的编码信息加入到小字典时,需要判断小字典存储的编码个数是否达到小字典存储区间的上限阈值,若没有达到,则直接将编码加入小字典中,若达到上限,则踢出小字典中最早进入字典的编码,把踢出的编码存储到键值数据库中并把新的编码加入小字典中。进一步地,所述的若收集到的起源信息是数据信息,则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储的过程如下:合并数据信息时,在数据起源系统收集的数据信息可能大小差异过大,其中数据信息大小小于数据信息平均值大小一半的数据信息被称为小数据。首先使用调节器间隔计算阈值和合并窗口的窗口值,调节器通过统计当前数据信息的大小来计算阈值,以2NKbyte,N=0,1,2,3,4…即0K到1K,1K到2K,2K到4K…来划分区间;调节器统计数据信息大小所在的范围区间,所属范围区间最多的区间上限为小数据的阈值,同时设定合并窗口的窗口值等于两倍阈值大小;处理数据信息,当数据信息大小大于阈值时,将数据信息直接存储到键值数据库中,否则将数据信息加入合并窗口中,并读取其相关溯源信息,读取下一条数据信息;当合并窗口缓存的数据信息大于合并窗口的窗口值,根据数据信息的属性即溯源信息对数据信息进行排序合并,属性的优先级别从高到低分别是文件名、进程号、父进程号,将相同属性的小数据合并,按照不大于一个阈值大小切分,键值的方式存储合并后的数据信息。进一步地,所述的键值数据库的存储方式具体如下:当数据信息存储到键值数据库(Key-ValueDatabase,简称KV)时,按照键值(KV)方式存储,即一个唯一编号对应一条合并的数据;当溯源信息存储到键值数据库时,字典编码中编码信息和对应的溯源信息使用KV方式存储,溯源信息使用建表存储,表中数据包括用编码代替后的溯源信息和对应数据信息的唯一编号,数据信息中小数据所在位置的偏移量。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术主要用于删减数据起源系统中的溯源信息,与传统直接存储方式相比,本专利技术提出的自适应合并算法本文档来自技高网
...

【技术保护点】
1.一种面向数据起源系统的自适应数据合并存储方法,其特征在于,所述的自适应数据合并存储方法包括以下步骤:使用数据起源系统收集信息:当进程执行时,数据起源系统会自动拦截并收集的该进程的起源信息,其中,所述的起源信息包括溯源信息和数据信息,所述的溯源信息是用于描述进程或者文件的元数据,所述的数据信息是进程发生写操作时写入的内容;判断收集到的起源信息是溯源信息还是数据信息,根据当前收集到起源信息的类型,进行不同的优化存储方式;若收集到的起源信息是溯源信息,则利用一种字典编码方式对溯源信息进行压缩,初始设置一个小字典,读取溯源信息,首先查询溯源信息中的内容是否在小字典中存在对应编码,若不存在,将溯源信息的各项内容进行编码,将编码存入小字典中,并将原本溯源信息中的内容用编码代替后,存储到键值数据库中,若存在,则按小字典中对应编码代替溯源信息,存储到键值数据库中;若收集到的起源信息是数据信息,则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储,所述的小数据是指数据信息大小小于数据信息平均值大小一半的数据信息,首先使用一个调节器统计当前数据信息的大小,并计算出当前数据信息的阈值,设置合并窗口的窗口值为两倍阈值,读取数据信息,上述的合并窗口是一个缓存区,用于暂时存储小数据;若当前收集的数据信息的大小大于阈值,则直接存储到键值数据库中,若当前收集的数据信息的大小小于阈值,则将其加入合并窗口并获取其相关的溯源信息;当合并窗口缓存的数据信息大小总和大于窗口值时,对合并窗口内部数据按照溯源信息的属性进行排序,然后按照每条大小不大于阈值的方式存储到键值数据库中。...

【技术特征摘要】
1.一种面向数据起源系统的自适应数据合并存储方法,其特征在于,所述的自适应数据合并存储方法包括以下步骤:使用数据起源系统收集信息:当进程执行时,数据起源系统会自动拦截并收集的该进程的起源信息,其中,所述的起源信息包括溯源信息和数据信息,所述的溯源信息是用于描述进程或者文件的元数据,所述的数据信息是进程发生写操作时写入的内容;判断收集到的起源信息是溯源信息还是数据信息,根据当前收集到起源信息的类型,进行不同的优化存储方式;若收集到的起源信息是溯源信息,则利用一种字典编码方式对溯源信息进行压缩,初始设置一个小字典,读取溯源信息,首先查询溯源信息中的内容是否在小字典中存在对应编码,若不存在,将溯源信息的各项内容进行编码,将编码存入小字典中,并将原本溯源信息中的内容用编码代替后,存储到键值数据库中,若存在,则按小字典中对应编码代替溯源信息,存储到键值数据库中;若收集到的起源信息是数据信息,则利用一种自适应合并方式对数据信息中小数据进行相关性合并存储,所述的小数据是指数据信息大小小于数据信息平均值大小一半的数据信息,首先使用一个调节器统计当前数据信息的大小,并计算出当前数据信息的阈值,设置合并窗口的窗口值为两倍阈值,读取数据信息,上述的合并窗口是一个缓存区,用于暂时存储小数据;若当前收集的数据信息的大小大于阈值,则直接存储到键值数据库中,若当前收集的数据信息的大小小于阈值,则将其加入合并窗口并获取其相关的溯源信息;当合并窗口缓存的数据信息大小总和大于窗口值时,对合并窗口内部数据按照溯源信息的属性进行排序,然后按照每条大小不大于阈值的方式存储到键值数据库中。2.根据权利要求1所述的一种面向数据起源系统的自适应数据合并存储方法,其特征在于,所述的数据起源系统包括用户系统层、虚拟文件系统层、起源信息收集层和底层文件系统,当外部进程执行时,数据起源系统会将进程的信息传送,经过虚拟文件系统层、起源信息收集层,最后到达底层文件系统,其中起源信息收集层用于收集起源信息。3.根据权利要求1所述的一种面向数据起源系统的自适应数据合并存储方法,其特征在于,所述的小字典的存储区间具有上限阈值,适用于在线系统,存储区间的上限阈值不小于当前进程的最大数。4.根据权利要求1所述的一种面向数据起源系统的自适应数据合并存储方...

【专利技术属性】
技术研发人员:邓玉辉赵刘琦
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1