海量文件管理方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号:25948110 阅读:19 留言:0更新日期:2020-10-17 03:40
本申请提出一种海量文件的管理方法、装置、计算机设备和可读存储介质,其中方法包括:判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息;将待上传的文件发送至FastDFS进行存储,获得FastDFS返回的FileID;将所述特征信息与所述FileID发送至ElasticSearch进行保存;当接收到用户的搜索指令时,根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID;根据所述目标文件FileID在FastDFS中进行查询,获得相应的目标文件。本申请的海量文件的管理方法将文件的特征信息和文件存储信息另外进行储存,在搜索文件时,根据用户的搜索条件获取文件的存储信息,从而实现对海量文件尤其是半结构化和非结构化格式文件的快速搜索。

【技术实现步骤摘要】
海量文件管理方法、装置、计算机设备和可读存储介质
本申请涉及数据处理的
,具体涉及到一种海量文件管理方法、装置、计算机设备和可读存储介质。
技术介绍
互联网技术发展迅猛,产生的信息呈爆炸式增长,传统的文件系统难以满足海量文件对于动态扩展、高效访问的需求。尤其是对于半结构化数据或非结构化数据而言,此类数据的占用空间通常比结构化数据大,对存储系统的要求更高,此外,在一些应用场景中需要从灵活多变的多个维度快速对半结构化数据或非结构化数据进行搜索,这对搜索引擎也提出了要求。
技术实现思路
本申请的主要目的为了提供一种海量文件的管理方法、装置、计算机设备和可读存储介质,旨在解决如何实现海量半结构化或非结构化数据快速搜索的问题。为了实现上述专利技术目的,本申请提出一种海量文件的管理方法,包括:判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息;将待上传的文件发送至FastDFS进行存储,获得FastDFS返回的FileID;将所述特征信息与所述FileID发送至ElasticSearch进行保存;当接收到用户的搜索指令时,根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID;根据所述目标文件FileID在FastDFS中进行查询,获得相应的目标文件。进一步地,所述判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息的步骤包括:判断待上传的文件的类型;当所述类型为文本文件时,提取所述待上传的文件名称、文件格式和文本内容。进一步地,所述判断待上传的文件的类型的步骤之后还包括:当所述类型为图片文件时,提取所述待上传的文件名称,文件格式,颜色属性值和图像纹理。进一步地,所述搜索条件为基于上传图片进行相似图片搜索,所述根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID的步骤包括:提取所述上传图片的颜色属性值和图像纹理;计算所述上传图片与已存储图片的图像纹理的汉明距离,获得所述汉明距离符合预设阈值的目标文件FileID;将所述目标文件FileID根据所述汉明距离进行排序,对于所述汉明距离相同的目标文件FileID,根据所述颜色属性值进行再次排序。进一步地,所述根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID的步骤之后还包括:记录用户输入的搜索条件,将搜索次数大于预设次数的搜索条件对应的特征信息记录为关联特征信息。进一步地,所述将待上传的文件发送至FastDFS进行存储的步骤还包括:查询待上传的文件中是否存在文件大小小于预设阈值并且所述特征信息中包含所述关联特征信息的关联文件;若存在,将所述关联文件发送至FastDFS进行合并存储。本申请实施例还提供一种海量文件的管理装置,包括:判断提取单元,用于判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息;第一发送单元,用于将待上传的文件发送至FastDFS进行存储,获得FastDFS返回的FileID;第二发送单元,用于将所述特征信息与所述FileID发送至ElasticSearch进行保存;搜索单元,用于根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID;查询单元,用于根据所述目标文件FileID在FastDFS中进行查询,获得相应的目标文件。进一步地,所述判断提取单元包括:第一执行模块,用于当所述类型为文本文件时,提取所述待上传的文件名称、文件格式和文本内容。第二执行模块,用于当所述类型为图片文件时,提取所述待上传的文件名称、文件格式、颜色属性值和图像纹理。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的海量文件的管理方法、装置、计算机设备和可读存储介质,本申请的海量文件的管理方法将文件的特征信息和文件存储信息另外进行储存,在搜索文件时,根据用户的搜索条件获取文件的存储信息,从而实现对海量文件尤其是半结构化和非结构化格式文件的快速搜索。附图说明图1为本申请一实施例的海量文件的管理方法的流程示意图;图2为本申请一实施例的海量文件的管理方法装置的结构示意框图;图3为本申请一实施例的计算机设备的结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参照图1,本申请实施例中提供一种海量文件的管理方法,包括步骤:S1、判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息;S2、将待上传的文件发送至FastDFS进行存储,获得FastDFS返回的FileID;S3、将所述特征信息与所述FileID发送至ElasticSearch进行保存。S4、当接收到用户的搜索指令时,根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID;S5、根据所述目标文件FileID在FastDFS中进行查询,获得相应的目标文件。FastDFS与ElasticSearch都属于分布式文件系统,是通过多台计算机协同合作完成文件存储或者大数据计算等目标的文件系统。本方案中,将文件中的特征信息提取出来,FastDFS用于存储文件,可以包括结构化数据和非结构化数据,ElasticSearch用于存储文件的特征信息和FileID,即ElasticSearch中存储的均为结构化数据。FastDFS适于存储文档、图片、音频、视频等非结构化数据,尤其适合存储海量中小文件。ElasticSearch可以在短时间内存储、搜索和分析大量的数据,适用于复杂搜索场景。如上述步骤S1所述,属性模块读取待上传的文件后判断文件类型,根据文件类型采用预设的方法提取文件的特征信息,例如,当文件类型为文本文件时,特征信息可以包括文本内容等;当文件类型为图片文件时,特征信息可以包括颜色属性值和图像纹理等;当文件类型为音频文件时,特征信息可以包括过零率、短时能量、共振峰、语谱图等;当文件类型为视频文件时,特征信息可以包括关键帧等;如上述步骤S2所述,FastDFS含有TrackerServer和StorageServer两种角色,分别负责调度任务和文件数据的本文档来自技高网...

【技术保护点】
1.一种海量文件的管理方法,其特征在于,包括:/n判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息;/n将待上传的文件发送至FastDFS进行存储,获得FastDFS返回的FileID;/n将所述特征信息与所述FileID发送至ElasticSearch进行保存;/n当接收到用户的搜索指令时,根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID;/n根据所述目标文件FileID在FastDFS中进行查询,获得相应的目标文件。/n

【技术特征摘要】
1.一种海量文件的管理方法,其特征在于,包括:
判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息;
将待上传的文件发送至FastDFS进行存储,获得FastDFS返回的FileID;
将所述特征信息与所述FileID发送至ElasticSearch进行保存;
当接收到用户的搜索指令时,根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID;
根据所述目标文件FileID在FastDFS中进行查询,获得相应的目标文件。


2.如权利要求1所述的海量文件的管理方法,其特征在于,所述判断待上传的文件的类型,根据所述类型提取所述待上传的文件的特征信息的步骤包括:
判断待上传的文件的类型;
当所述类型为文本文件时,提取所述待上传的文件名称、文件格式和文本内容。


3.如权利要求2所述的海量文件的管理方法,其特征在于,所述判断待上传的文件的类型的步骤之后,还包括:
当所述类型为图片文件时,提取所述待上传的文件名称、文件格式、颜色属性值和图像纹理。


4.如权利要求1所述的海量文件的管理方法,其特征在于,所述搜索条件为基于上传图片进行相似图片搜索,所述根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所述搜索条件的目标文件FileID的步骤包括:
提取所述上传图片的颜色属性值和图像纹理;
计算所述上传图片与已存储图片的图像纹理的汉明距离,获得所述汉明距离符合预设阈值的目标文件FileID;
将所述目标文件FileID根据所述汉明距离进行排序,对于所述汉明距离相同的目标文件FileID,根据所述颜色属性值进行再次排序。


5.如权利要求1所述的海量文件的管理方法,其特征在于,所述根据用户输入的搜索条件在ElasticSearch中进行搜索,获得符合所...

【专利技术属性】
技术研发人员:张果胜
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1