一种文件检索方法及装置制造方法及图纸

技术编号:18084003 阅读:25 留言:0更新日期:2018-05-31 12:30
本发明专利技术实施例提供了一种文件检索方法及装置,涉及计算机技术领域,该方法包括:接收文件检索请求,其中,上述文件检索请求中携带检索关键字;检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;获得检索结果。与现有技术相比,应用本发明专利技术实施例提供的方案,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,从而提高了文件检索效率。

【技术实现步骤摘要】
一种文件检索方法及装置
本专利技术涉及计算机
,特别是涉及一种文件检索方法及装置。
技术介绍
在当前的大数据环境下,为了满足数据的存储、分析等需求,越来越多的将文件存储在分布式文件系统中,例如,HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)。上述HDFS是一种常用的分布式文件系统,该系统具有高度容错性,可以提供高吞吐量的数据访问服务,适合大规模数据集上的应用。在实际应用中需要对部分数据进行分析时,需要先检索到需要进行分析的数据,然而虽然分布式文件系统具有上述优势,但是由于分布式文件系统中存储的文件数量十分庞大,导致在分布式文件系统中进行文件搜索的效率较低。
技术实现思路
本专利技术实施例的目的在于提供一种文件检索方法及装置,以提高文件检索效率。具体技术方案如下:第一方面,本专利技术实施例提供了一种文件检索方法,所述方法包括:接收文件检索请求,其中,所述文件检索请求中携带检索关键字;检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;获得检索结果。一种实现方式中,所述检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件的步骤,包括:确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。一种实现方式中,所述按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件的步骤,包括:选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;在未遍历所确定文件元数据类型的情况下,返回执行所述按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型的步骤。一种实现方式中,所述文件元数据包括以下类型的信息中的至少一种:文件名元数据、文件内容元数据、文件格式元数据。一种实现方式中,所述文件名元数据包括以下信息中的至少一种:采集文件的时间;采集文件的地址;文件采集点的标识;采集文件的接口类型。一种实现方式中,所述文件检索方法还包括:展示检索结果。第二方面,本专利技术实施例提供了一种文件检索装置,所述装置包括:请求接收模块,用于接收文件检索请求,其中,所述文件检索请求中携带检索关键字;文件检索模块,用于检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;结果获得模块,用于获得检索结果。一种实现方式中,所述文件检索模块,包括:类型确定子模块,用于确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;文件检索子模块,用于按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。一种实现方式中,所述文件检索子模块,包括:第一类型确定单元,用于选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;第一文件检索单元,用于在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;第一结果确定单元,用于根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;第二类型确定单元,用于按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;第二文件检索单元,用于在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;第二结果确定单元,用于根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;在未遍历所确定文件元数据类型的情况下,触发第二类型确定单元。一种实现方式中,所述文件检索装置还包括:结果展示模块,用于展示检索结果。本专利技术实施例提供的文件检索的方法及装置,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,不需要打开分布式文件系统中的文件对文件内容进行逐一检索,从而提高了文件检索效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种文件检索方法的流程示意图。图2为本专利技术实施例提供的文件检索方法的一种实现方式的流程示意图。图3为本专利技术实施例提供的文件检索方法的另一种实现方式的流程示意图。图4为本专利技术实施例提供的一种文件检索装置的结构示意图。图5为本专利技术实施例提供的文件检索装置的一种实现方式的结构示意图。图6为本专利技术实施例提供的文件检索装置的另一种实现方式的结构示意图。图7为本专利技术实施例提供的一种电子设备的结构示意图。图8为本专利技术具体实例中第一次检索后的x轴树与y轴树。图9为本专利技术具体实例中第二次检索后的x轴树与y轴树。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术实施例提供的一种文件检索方法的流程示意图,该方法包括:S101:接收文件检索请求,其中,文件检索请求中携带检索关键字;S102:检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;其中,文件元数据是从文件数据中获取的、用来表征文件特征的数据。上述文件数据可以包括文件的内容、文件的名称、文件的格式等等。本专利技术实施例中,分布式文件系统中不但存储了文件,而且存储了每一文件的文件元数据,每一文件的文件元数据可以是在分布式文件系统中存储文件时从文件数据中提取并存储的。与检索请求中携带的检索关键字匹配的文件可以是:文件元数据中包含检索请求中携带的全部检索关键字的文件,还可以是:文件元数据中仅仅包含检索请求中携带的部分检索关键字的文件。本申请并不对此进行限定。一种实现方本文档来自技高网...
一种文件检索方法及装置

【技术保护点】
一种文件检索方法,其特征在于,所述方法包括:接收文件检索请求,其中,所述文件检索请求中携带检索关键字;检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;获得检索结果。

【技术特征摘要】
1.一种文件检索方法,其特征在于,所述方法包括:接收文件检索请求,其中,所述文件检索请求中携带检索关键字;检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;获得检索结果。2.根据权利要求1所述的方法,其特征在于,所述检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件的步骤,包括:确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。3.根据权利要求2所述的方法,其特征在于,所述按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件的步骤,包括:选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;在未遍历所确定文件元数据类型的情况下,返回执行所述按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型的步骤。4.根据权利要求1所述的方法,其特征在于,所述文件元数据包括以下类型的信息中的至少一种:文件名元数据、文件内容元数据、文件格式元数据。5.根据权利要求4所述的方法,其特征在于,所述文件名元数据包括以下信息中的至少一...

【专利技术属性】
技术研发人员:刘军刘芳姜亦朋卢跃凯
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1