一种基于高性能计算的存储统计系统及方法技术方案

技术编号:17039509 阅读:34 留言:0更新日期:2018-01-17 12:53
本发明专利技术提供了一种基于高性能计算的存储统计系统及方法,属于信息技术领域。本系统包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;所述调度模块将子文件调度到计算节点上;在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息。

A storage statistics system and method based on High Performance Computing

The invention provides a storage statistics system and method based on high performance computing, which belongs to the field of information technology. This system includes a path search module, scheduling module, storage space calculation module and information retrieval module; the path of scanning in the specified storage, search into the third layer tree, the absolute path of all files and directories of the third layer to retrieve, to record the results file after scanning; the results, the paper divided into N parts, forming N sub file; the scheduling module scheduling sub files to the computing nodes; on every node, the storage space calculation module according to the absolute path to provide sub file, calculate the corresponding to the absolute path of the file for the size of storage space; at every node, the information calculation module according to the absolute path to provide sub files, detailed information is calculated corresponding to the absolute path of the file.

【技术实现步骤摘要】
一种基于高性能计算的存储统计系统及方法
本专利技术属于信息
,具体涉及一种基于高性能计算的存储统计系统及方法,用于高性能存储中用户使用情况的统计。
技术介绍
从1960年代开始,计算机技术即被应用于石油地球物理勘探。40多年来,几乎所有油气公司、地球物理服务公司、石油地球物理研究机构都建立了用于地震勘探数据处理与分析的计算中心。随着计算机性能得不断提高,磁盘存储的性能和容量也在不断的加大,因此系统管理人员在对磁盘存储的用户使用统计时,耗时太长。shell是一种具备特殊功能的程序,它是介于使用者和UNIX/Linux操作系统之核心程序(kernel)间的一个接口。上述技术已比较成熟,可直接用于本专利技术。可通过程序在半个小时之内统计完PB级(1000TB容量以上)存储的用户使用情况,例如每套存储中每个用户所使用容量,每个用户总共使用的容量等。但是,现有技术存在的问题是:需要系统管理员干预选择程序运行节点,程序还未实现自主选择节点。
技术实现思路
本专利技术的目的在于解决上述现有技术中存在的难题,提供一种基于高性能计算的存储统计系统及方法,缩短高性能存储的用户使用统计时间,提高系统管理员的工作效率。本专利技术是通过以下技术方案实现的:一种基于高性能计算的存储统计系统,包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;所述调度模块将子文件调度到计算节点上;在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息。所述详细信息包括与绝对路径相对应的文件的所属用户、所属组、文件的创建时间、文件的大小和文件的权限。所述调度模块将子文件调度到计算节点上的同时对该计算节点进行加锁,直到被计算的子文件在该计算节点上的运算结束后,调度模块才对该计算节点进行解锁。一种基于高性能计算的存储统计方法,包括:(1)在指定存储中进行扫描,检索目录树第三层的所有文件和目录,将其记录到结果文件(即find文件)中;(2)对结果文件进行切割,形成N个子文件;(3)将子文件调度到计算节点上进行运算。所述步骤(3)包括:(31)将子文件分发到计算节点上;(32)判断该计算节点的锁是否存在,如果是,则返回步骤(31);如果否,则转入步骤(33);(33)给该计算节点加锁;(34)建立列表,记录该子文件和该计算节点的对应关系;(35)计算节点根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小,然后计算与该绝对路径相对应的文件的详细信息,得到统计结果;(36)对该计算节点进行解锁。与现有技术相比,本专利技术的有益效果是:实现了半个小时之内统计完1.5P的存储使用情况,而且统计时间并没有随存储容量的增加而增加,也可以将不同厂商的存储一起统计。附图说明图1hostfile表。图2程序运行日志。图3用户使用存储统计信息。图4本专利技术方法的步骤框图。图5本专利技术中调度模块的工作原理图。图6本专利技术系统的结构图。具体实施方式下面结合附图对本专利技术作进一步详细描述:如图4所示,本专利技术主要是提供一种方法来进行高性能存储的统计,将并行计算的思想移植到统计算法上(利用并行计算的思想,使用调度模块将一个大文件平均分成若干小文件后,分发到不同的计算单元进行计算。),将符合条件的文件路径搜索出来,统一到索引文件中(创建一个索引文件),将检索出的路径记录到里面,并利用调度模块,将索引文件切割分发(按照参数平均分成若干份)到并行节点中进行计算统计(通过size模块计算文件大小,通过info模块统计文件的详细信息)。如图6所示,本专利技术的系统包括四个模块:路径检索模块(简称为find模块)、存储空间计算模块(简称为size模块)、信息计算模块(简称为info模块)和调度模块。find模块:利用linux中的find命令搜索,在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到文件find中。扫描结束后,按照设定的参数将文件find平均分成若干份,形成若干文件fx(f1、f2、f3等)。size模块:利用linux中的du命令,根据文件fx中提供的绝对路径,计算与绝对路径相对应的文件所占存储空间的大小。info模块:利用linux中的1s、awk、sed等工具,根据文件fx中提供的绝对路径,计算与绝对路径相对应的文件的详细信息,比如文件的所属用户,文件的所属组等。程序是在共享存储上,也可以看成每个计算节点上都有这两个计算模块。调度模块:将若干文件fx调度到计算节点上进行size模块的运算和info模块的运算。将f1调度到sghpdw002节点上进行运算,同时建立锁文件,不允许调度系统将别的fx文件发送到sghpdw002上进行运算,直到f1在sghpdw002上运算结束,解锁后,调度模块发现该节点被解锁后,调度模块才会将别的fx文件发送到sghpdw002上进行运算。调度模块的工作流程如图5所示。本专利技术需要将一个大文件,按照设定的参数(在find模块中设定,系统管理员根据经验以及不断的调试设定,确定每个子文件所含路径大概在多少范围内,程序运行效率最高)切割成若干小文件,然后通过调度模块将小文件分发到各个节点(计算单元)上进行运算。总共可以在哪些节点上做运算是需要管理员手动编辑hostfile表,如图1所示,调度模块只能在hostfile表的范围内进行调度。图2显示的是程序的运行时间,存储统计时间为29分40秒,图3是最终的显示界面,展示统计的结果。上述技术方案只是本专利技术的一种实施方式,对于本领域内的技术人员而言,在本专利技术公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本专利技术上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。本文档来自技高网...
一种基于高性能计算的存储统计系统及方法

【技术保护点】
一种基于高性能计算的存储统计系统,其特征在于:所述系统包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;所述调度模块将子文件调度到计算节点上;在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息;其中,所述调度模块将子文件调度到计算节点上的同时对该计算节点进行加锁,直到被计算的子文件在该计算节点上的运算结束后,调度模块才对该计算节点进行解锁。

【技术特征摘要】
1.一种基于高性能计算的存储统计系统,其特征在于:所述系统包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;所述调度模块将子文件调度到计算节点上;在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息;其中,所述调度模块将子文件调度到计算节点上的同时对该计算节点进行加锁,直到被计算的子文件在该计算节点上的运算结束后,调度模块才对该计算节点进行解锁。2.根据权利要求1所述的基于高性能计算的存储统计系统,...

【专利技术属性】
技术研发人员:葛鑫路曜宗李进
申请(专利权)人:中国石油化工股份有限公司中国石油化工股份有限公司石油物探技术研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1