存储系统中基于溯源信息的文件元数据查询方法与系统技术方案

技术编号:10292084 阅读:166 留言:0更新日期:2014-08-06 19:36
本发明专利技术公开了存储系统中基于溯源信息的文件元数据查询方法。在系统客户端收集溯源信息,通过分析得到文件相关性信息并传递给元数据服务器;元数据服务器根据文件之间的关系信息实时维护关系图;建立基于关联感知的元数据索引树;接收到查询请求后,先在索引树中查找到种子结果集,然后在关系图中查找,得到初始结果集,最后对初始结果集根据查询条件进行排序和精简得到最终结果发送给客户。本发明专利技术还提供了相应的文件元数据查询系统。本发明专利技术通过关系值来衡量文件之间的相关特性,本发明专利技术能够充分地利用空间索引结构的快速定位以及关系图的精确相关性的特点,优化元数据查询的效率。

【技术实现步骤摘要】
存储系统中基于溯源信息的文件元数据查询方法与系统
本专利技术属于计算机数据存储
,更具体地,涉及一种存储系统中基于溯源信息的文件元数据查询方法与系统。
技术介绍
现在元数据的查询研究变的越来越重要,主要有两方面的原因,一是随着移动网络和云计算的发展,信息存储系统中的数据规模越来越大,用户、系统管理员很难管理和定位自己需要的文件,必须借助快速准确的查询系统来提高效率。另一方面,相比于传统的数据管理,在大数据的管理中更加注重数据分析,通过数据分析,用户或是管理员才能更好的把握数据的真实价值。数据分析需要大量的查询操作,在现代的存储系统中,就需要专门的文件元数据查询系统才能满足大数据中数据分析的需要。现有的文件元数据的查询设计存在以下问题:(1)有的系统利用DBMS来索引和查询元数据,没有关注查询请求的趋势,忽略了查询请求的局部性原理的利用,导致极差的查询速度,据测有的查询需要400-1000秒。(2)有的系统利用树型的索引来加快查询。例如利用目录树来加快查询,但目录树只反映了文件的一维属性(即元数据的一项),不能很好的体现元数据之间的相关性;利用元数据的多维属性,如创建者、创建时间、修改时间等静态属性反映的相关性来建立索引加快查询,但这种索引也仅仅只能反映元数据的某些静态特征所表现相关性,随着应用的变化,这种相关性会发生变化,不能有效的支持元数据查询。有研究表明,传统的文件属性有时无助于文件查询,比如根据时间来查询,30.8%的可能找到结果,53.8%的可能找到错误结果。(3)现有的文件元数据查询系统缺乏对复杂查询的实现或优化,对于涉及元数据多维属性的查询请求,如范围查询、TopK查询、近似最近邻查询等,随着数据量的增大,现有方法不能快速有效地处理用户越来越多的复杂查询请求;(4)现有的文件元数据查询系统的可扩展性差,当元数据的属性项或数目随着系统的扩展而增多时,查询的响应时间将显著增加。
技术实现思路
本专利技术要解决的技术问题是:针对现有文件元数据查询技术无法满足云计算和大数据的快速高效的文件查询需要的问题,本专利技术提出存储系统中基于溯源信息的文件元数据查询方法,通过溯源信息提供的关于文件元数据之间的动态的相关性来加快查询,并可提高查询的准确率。为实现上述目的,按照本专利技术的一个方面,提供了一种存储系统中基于溯源信息的文件元数据查询方法,包括以下步骤:(1)对安装在存储系统的客户端的溯源信息收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据服务器;(2)根据元数据服务器接收的文件相关性信息,生成关系图,所述关系图为无向有权图,所述关系图中的节点代表文件,所述边代表文件相关性;(3)接收用户的查询请求,根据用户的查询条件在基于关联感知的元数据索引树中查询得到种子结果集;(4)根据得到的种子结果集在关系图中进行查询,得到初始结果集,然后对初始结果集进行排序和精简得到最终结果集发送给查询用户。进一步地,所述步骤(1)包括以下子步骤:(1-1)在每一个存储系统的客户端程序中加入溯源信息收集模块;(1-2)设置溯源信息收集模块收集溯源信息的范围,即只收集存储系统中涉及到文件相关性的信息;(1-3)将在客户端收集的溯源信息经过去重,分析得到文件关系项后,将这些文件关系项发送到相应的元数据服务器,所述每个文件关系项中包含发生关系的两个文件的通用资源标识符URI和相关性信息。进一步地,所述步骤(2)包括以下子步骤:(2-1)得到客户端传递过来的各条文件关系项;(2-2)根据文件关系项中的两个文件的URI分别判断关系图中是否已包含代表这两个文件的节点,如果不包含,则在关系图中添加代表该文件的节点;(2-3)根据文件关系项中两个文件的相关性信息,判断该文件关系项是否已在关系图中记录,如果已记录则更新这两个文件的相关性信息,否则在关系图中添加这一文件关系项。进一步地,在所述步骤(3)之前还包括建立基于关联感知的元数据索引树的步骤,具体为:选择文件属性中能反映文件相关性的属性,将每台元数据服务器上的元数据根据这些属性进行划分,然后建立索引,对所有的元数据服务器采用同样的方法建立一个树型的索引,从而在整个存储系统中建立基于关联感知的元数据索引树。进一步地,所述步骤(3)包括以下子步骤:(3-1)当元数据服务器集群中的某一台服务器接受到用户的查询请求后,通过查询条件与集群中各个元数据服务器的文件属性进行比较,确定需要查询的元数据服务器,并将查询请求转发给这台服务器;(3-2)这台服务器接收到用户请求后,根据查询方式在元数据服务器内部对基于关联感知的元数据索引树进行查询操作,得到的结果作为种子结果集;(3-3)种子结果的个数由查询条件确定,查询过程中计算各个种子节点与查询点之间的距离,并根据距离对种子结果集进行排序。进一步地,如果所述查询为TopK查询,所述步骤(4)具体包括如下步骤:(4-1-1)根据步骤(3)得到的种子结果集中的每个种子进行查询,获取与每个种子最靠近的K个结果,并计算各个结果与查询点之间的关系值,处理得到初始结果集;(4-1-2)依据初始结果集中的各个结果与查询点的关系值的大小,对初始结果集进行排序,选取最好的K个结果作为最终结果集;(4-1-3)将最终结果集返回给用户。进一步地,如果所述查询为近似最近邻查询,所述步骤(4)具体包括如下步骤:(4-2-1)根据查询条件在基于关联感知的元数据索引树中进行查询操作,得到与查询请求最接近的那条数据,计算这条数据与查询请求之间的距离d,确定查询半径R为(1+ε)×d,ε为用户输入参数,用于确定查询半径;(4-2-2)根据步骤(3)得到的种子结果集中的每个种子进行查询,查找离种子节点在这个查询半径R内的所有节点,并计算各个节点与查询点之间的关系值,处理得到初始结果集;(4-2-3)依据初始结果集中的各个结果与查询点的关系值的大小,对初始结果集进行排序,得到最终结果集;(4-2-4)将最终结果集返回给用户。按照本专利技术的另一方面,还提供了一种存储系统中基于溯源信息的文件元数据查询系统,所述查询系统包括溯源信息收集模块、关系图生成和维护模块、基于关联感知的元数据索引结构生成模块、基于关联感知的元数据索引结构查询模块、关系图查询模块、初始查询结果集处理模块以及用户查询处理模块,其中:所述溯源信息收集模块,用于对安装在存储系统的客户端的溯源信息收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据服务器;所述关系图生成和维护模块,用于根据元数据服务器接收的文件相关性信息,生成关系图,所述关系图包含节点表和边表两个部分,节点表保存文件_URI、文件_ID和连通量的数据项,边表保存文件1_ID、文件2_ID、最后一次发生关系的时间和关系值的数据项;并完成对关系图中节点和边的添加操作,以及对所述关系图进行更新操作;所述基于关联感知的元数据索引结构生成模块,用于选择文件属性中能反映文件相关性的属性,将每台元数据服务器上的元数据根据这些属性进行划分,然后建立索引,对所有的元数据服务器采用同样的方法建立一个树型的索引,从而在整个存储系统中建本文档来自技高网
...
存储系统中基于溯源信息的文件元数据查询方法与系统

【技术保护点】
一种存储系统中基于溯源信息的文件元数据查询方法,其特征在于,所述方法包括以下步骤:(1)对安装在存储系统的客户端的溯源信息收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据服务器;(2)根据元数据服务器接收的文件相关性信息,生成关系图,所述关系图为无向有权图,所述关系图中的节点代表文件,所述边代表文件相关性;(3)接收用户的查询请求,根据用户的查询条件在基于关联感知的元数据索引树中查询得到种子结果集;(4)根据得到的种子结果集在关系图中进行查询,得到初始结果集,然后对初始结果集进行排序和精简得到最终结果集发送给查询用户。

【技术特征摘要】
1.一种存储系统中基于溯源信息的文件元数据查询方法,其特征在于,所述方法包括以下步骤:(1)对安装在存储系统的客户端的溯源信息收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据服务器;(2)根据元数据服务器接收的文件相关性信息,生成关系图,所述关系图为无向有权图,所述关系图中的节点代表文件,边代表文件相关性;(3)接收用户的查询请求,根据用户的查询条件在基于关联感知的元数据索引树中查询得到种子结果集;(4)根据得到的种子结果集在关系图中进行查询,得到初始结果集,然后对初始结果集进行排序和精简得到最终结果集发送给查询用户;如果步骤(4)中的所述查询为TopK查询,所述步骤(4)具体包括如下步骤:(4-1-1)根据步骤(3)得到的种子结果集中的每个种子进行查询,获取与每个种子最靠近的K个结果,并计算各个结果与查询点之间的关系值,处理得到初始结果集;(4-1-2)依据初始结果集中的各个结果与查询点的关系值的大小,对初始结果集进行排序,选取最好的K个结果作为最终结果集;(4-1-3)将最终结果集返回给用户;如果步骤(4)中的所述查询为近似最近邻查询,所述步骤(4)具体包括如下步骤:(4-2-1)根据查询条件在基于关联感知的元数据索引树中进行查询操作,得到与查询请求最接近的那条数据,计算这条数据与查询请求之间的距离d,确定查询半径R为(1+ε)×d,ε为用户输入参数,用于确定查询半径;(4-2-2)根据步骤(3)得到的种子结果集中的每个种子进行查询,查找离种子节点在这个查询半径R内的所有节点,并计算各个节点与查询点之间的关系值,处理得到初始结果集;(4-2-3)依据初始结果集中的各个结果与查询点的关系值的大小,对初始结果集进行排序,得到最终结果集;(4-2-4)将最终结果集返回给用户。2.根据权利要求1所述的文件元数据查询方法,其特征在于,所述步骤(1)包括以下子步骤:(1-1)在每一个存储系统的客户端程序中加入溯源信息收集模块;(1-2)设置溯源信息收集模块收集溯源信息的范围,即只收集存储系统中涉及到文件相关性的信息;(1-3)将在客户端收集的溯源信息经过去重,分析得到文件关系项后,将这些文件关系项发送到相应的元数据服务器,所述每个文件关系项中包含发生关系的两个文件的通用资源标识符URI和相关性信息。3.根据权利要求2所述的文件元数据查询方法,其特征在于,所述步骤(2)包括以下子步骤:(2-1)得到客户端传递过来的各条文件关系项;(2-2)根据文件关系项中的两个文件的URI分别判断关系图中是否已包含代表这两个文件的节点,如果不包含,则在关系图中添加代表该文件的节点;(2-3)根据文件关系项中两个文件的相关性信息,判断该文件关系项是否已在关系图中记录,如果已记录则更新这两个文件的相关性信息,否则在关系图中添加这一文件关系项。4.根据权利要求1至3任一项所述的文件元数据查询方法,其特征在于,在所述步骤(3)之前还包括建立基于关联感知的元数据索引树的步骤,具体为:选择文件属性中能反映文件相关性的属性,将每台元数据服务器上的元数据根据这些属性进行划分,然后建立索引,对所有的元数据服务器采用同样的方法建立一个树型的索引,从而在整个存储系统中建立基于关联感知的元数据索引树。5.根据权利要求1到3任一项所述的文件元数据查询方法,其特征在于,所述步骤(3)包括以下子步骤:(3-1)当元数据服务器集群中的某一台服务器接受到用户的查询请求后,通过查询条件与集群中各个元数据服务器的文件属性进行比较,确定需要查询的元数据服务器,并将查询请求转发给这台服务器;(3-2)这台服务器接收到用户请求后,根据查询方式在元数据服务器内部对基于关联感知的元数据索引树进行查询操作,得到的结果作为种子结果集;(3-3)计算各个种子节点与查询点之间的距离,并根据距离对种子结果集进行排序,其中种子结果集中种子结果的个数由查询条件确定。6.根据权利要求4所述的文件元数据查询方法,其特征在于,所述步骤(3)包括以下子步骤:(3-1)当元数据服务器集群中的某一台服务器接受到用户的查询请求后,通过查询条件与集群中各个元数据服务器的文件属性进行比较,确定需要查询的元数据服务器,并将查询请求转发给这台服务器;(3-2)这台服务器接收到用户请求后,根据查询方式在元数据服务器内部对基于关联感知的元数据索引树进行查询操作,得到的结果作为种子结果集;(3-3)计算各个种子节点与查询点之间的距离,并根据距离对种子结果集进行排序,其中种子结果集中种子结果的个数由查询条件确定。7.一种存储系统中基于溯源信息的文件元数据查询系统,其特征在于,所述查询系统包括溯源信息收集模块、关系图生成和维护模块、基于关联感知的元数...

【专利技术属性】
技术研发人员:冯丹刘进军华宇彭斌聂振华黄大彰蔡娟
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1