一种基于标签组织的磁光混合文件存储方法及系统技术方案

技术编号:24090774 阅读:37 留言:0更新日期:2020-05-09 07:58
本发明专利技术提出了一种基于标签组织的磁光混合文件存储方法及系统,文件在存储过程中,提取基本属性信息;然后不同文件类型,采用不同的分析技术进行基于文件内容的特征提取,文档类提取全文内容,图片类提取EXIF信息,视频类提取视频元信息,并提取关键帧信息;除自动分析获得的标签,本方法提供为文件建立自定义标签的手段,例如定义文件类别、部门、密级或者其他特定场景的标签,作为文件特征补充。上述分析得到的文件特征信息,人工标注的特征信息,均称之为文件的标签,本方法要求基于文件标签,建立文件存储索引表,提供外部查询和利用,原始文件本身自动迁移存放至光盘存储介质中;系统基于此存储方法,最终构建实用系统。

A magneto-optical hybrid file storage method and system based on label organization

【技术实现步骤摘要】
一种基于标签组织的磁光混合文件存储方法及系统
本专利技术属于数据存储领域,提出一种全新的文件存储和组织形式,适用于存储容量大、有长期存储要求、实时性访问要求低的场景,存储文件量大、对存储文件利用率要求高、存储安全性要求高的场景,且传统目录形式的存储无法很好的满足业务需求。
技术介绍
在数据存储领域,传统的数据存储主要以目录形式组织,采用磁盘作为主要的存储介质,但随着存储数据量的增长,在以下三方面存在着严重的制约和不便:在数据安全方面,传统磁盘方式的存储无法很好的满足重要数据长期安全的要求,磁盘介质理论寿命是5至10年,但在专业的数据存储领域,硬盘长期处于工作状态,一般在2-3年出现故障的概率大大提高,虽然raid技术在这方面做出了弥补,但也无法将数据安全性提高到一个十分满意的层次,一旦维护人员出现疏漏,带来的数据损失不可避免。另一方面,磁介质受特性影响,在一些关键情况下,例如战争中的电磁打击,数据受影响的概率更加巨大。在存储成本方面,传统磁盘存储不仅在造价方面,甚至在维护方面都带来巨大的成本。在DCIC2019第九届中国数据中心产业发展大会暨展览会上公布的,目前数据中心产业快速发展,平均年增长率超过30%,每年数据中心用电量占到全社会用电量的1.8%左右,如此巨大的能源消耗已经引起相关部门的关注。今年2月,工业和信息化部、国家机关事务管理局、国家能源局三部门联合发布了《关于加强绿色数据中心建设的指导意见》,提出以提升数据中心绿色发展水平为目标,以加快技术产品创新和应用为路径,以建立完善绿色标准评价体系等长效机制为保障,大力推动绿色数据中心创建、运维和改造,引导数据中心走高效、清洁、集约、循环的绿色发展道路,实现数据中心持续健康发展。在数据检索和利用方面,以目录形式组织文件已经无法满足使用者的检索需求,随着数据量的快速膨胀,数据采用分区分片的形式存储,使用者无法在全局的角度利用数据,另一方面目录方式的组织导致使用者只能够基于文件名/路径的方式来使用文件,数据的利用维度单一,想要深度发掘或者查找数据存在着很大的制约,而且这种限制随着存储数据的增长,也愈加尖锐。
技术实现思路
针对数据存储的要求及特点,研究一种基于标签组织的磁光混合文件存储方法,本专利技术的主要内容包括两方面,一方面基于文件建立标签组织的索引,其核心在于根据文件类型的不同,包括文档、图片、视频,采用不同的分析手段,分析获取文件的属性标签,同时提供自定义的标签附加,提供可视化的设置界面,为文件创建和关联符合实际场景和业务需要的标签。另一方面方法要求文件存储采用磁光混合的形式,数据经磁盘介质缓存,最终存储至蓝光光盘库硬件中,采用蓝光技术保存数据,进一步保障了存储数据的安全性。结合本专利技术的存储方法,构建自动化的系统,能够在数据存储领域很好的解决本文之前提到的三方面问题,在数据安全方面,这种存储方法提供磁光混合的异介质、多副本的存储形式,很好的避免了由于单一介质带来的局限性。在存储成本方面,减少磁介质的使用,增大蓝光光盘库硬件设备的使用,蓝光光盘库具备待机几乎零功耗、数据访问时低功耗,且在温度控制方面比磁介质存储要求低,因此在综合能耗消耗方面能够大大降低成本。在数据检索和利用方面,本方法对存储文件进行充分分析和关联,为文件关联了尽可能多的维度信息,这些维度信息即标签,为使用者检索和利用数据提供了多个方面的可能,实现更加多元、高效的利用方式。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术之方法流程图;图2为本专利技术之方法文件标签索引示意图;图3为本专利技术之系统实施例的结构框图;图4为本专利技术至系统实施例某文件标签索引示意图;具体实施方式下面结合具体实施例描述本专利技术:本实施例中主要包括样例为3文件,依据本专利技术方法,从外部导入本系统存储,文件名依次为:将进酒.doc、长城一日游.jpg、2008奥运会开幕式.mp4。现通过本系统客户端对样例文件所在目录进行录入设置,信息配置完成后,在客户端上点击启动按钮,客户端通过配置目录遍历到“将进酒.doc”、“长城一日游.jpg”、“2008奥运会开幕式.mp4”三个文件,并对三个文件进行上传操作;服务器接收到客户端上传的文件后,存储到服务器本地磁盘介质中,接收完成后,服务器属性提取模块对文件基本信息进行分析,分析结果如下:“将进酒.doc”文件名:将进酒.doc文件大小:61,234文件路径:d:\演示\创建时间:2018-01-01上传客户端:客户端1文件后缀:doc……“长城一日游.jpg”文件名:长城一日游.jpg文件大小:564,865文件路径:d:\演示\创建时间:2018-01-01上传客户端:客户端1文件后缀:jpg……“2008奥运会开幕式.mp4”文件名:2008奥运会开幕式.mp4文件大小:1,209,715,200文件路径:d:\演示\创建时间:2018-01-01上传客户端:客户端1文件后缀:mp4……对样例中3个文件的元信息分析完成后,开始根据文件类型特点的不同,采用不同分析技术进行分析处理:“将进酒.doc”→文件类型为【文档】,按照如下分析:(1)自动创建文件属性“全文内容”,通过分析得到属性值为“君不见,黄河之水天上来,奔流到海不复回。君不见,高堂明镜悲白发,朝如青丝暮成雪。人生得意须尽欢,莫使金樽空对月。天生我材必有用,千金散尽还复来。烹羊宰牛且为乐,会须一饮三百杯。岑夫子,丹丘生,将进酒,杯莫停。与君歌一曲,请君为我倾耳听。钟鼓馔玉不足贵,但愿长醉不复醒。古来圣贤皆寂寞,惟有饮者留其名。陈王昔时宴平乐,斗酒十千恣欢谑。主人何为言少钱,径须沽取对君酌。五花马,千金裘,呼儿将出换美酒,与尔同销万古愁。”“长城一日游.jpg”→文件类型为【图片】,按照图片文件分析手段:(1)通过分析获取EXIF元信息,提取包括但不限于以下属性和值:MIME类型:image/jpeg图像宽度:4032图像高度:3024编码过程:BaselineDCT,Huffmancoding方向:Rotate90CWX分辨率:72Y分辨率:72分辨率单位:inches色彩空间:sRGB色彩分量:3比特采样率:8经度:116.0154800000纬度:40.3565850000Exif版本:0221……“2008奥运会开幕式.mp4”→文本文档来自技高网
...

【技术保护点】
1.一种基于标签组织的磁光混合文件存储方法,其特征在于,所述方法用于数据存储领域,提供更加安全可靠、高效利用的数据存储模式,该方法包括:/n文件在存储过程中,对文件的基本属性进行提取,然后基于文件的类型,采用不同的分析技术,对文件特定方面的属性进行特征提取,文档类提取全文内容,图片类提取EXIF信息,视频类提取视频元信息,并提取关键帧信息。除自动分析获得的标签,本方法要求提供能够为文件建立自定义标签的手段,例如定义文件类别、部门、密级或者其他特定场景的标签,自评为文件特征的补充。所有围绕文件被分析出来的属性信息,均称之为文件的标签。本方法要求基于文件标签,建立文件存储索引表,提供外部查询和利用,原始文件自动迁移至光盘存储介质中。/n

【技术特征摘要】
1.一种基于标签组织的磁光混合文件存储方法,其特征在于,所述方法用于数据存储领域,提供更加安全可靠、高效利用的数据存储模式,该方法包括:
文件在存储过程中,对文件的基本属性进行提取,然后基于文件的类型,采用不同的分析技术,对文件特定方面的属性进行特征提取,文档类提取全文内容,图片类提取EXIF信息,视频类提取视频元信息,并提取关键帧信息。除自动分析获得的标签,本方法要求提供能够为文件建立自定义标签的手段,例如定义文件类别、部门、密级或者其他特定场景的标签,自评为文件特征的补充。所有围绕文件被分析出来的属性信息,均称之为文件的标签。本方法要求基于文件标签,建立文件存储索引表,提供外部查询和利用,原始文件自动迁移至光盘存储介质中。


2.根据权利要求1所述的基于标签组织的磁光混合文件存储方法,其特征在于,存储过程中充分提取文件的属性信息作为标签,根据文件类型的不同采用不同的分析手段提取文件的属性,同时支持自定义添加标签与文件进行关联,所有的分析结果得到的属性和值,即为文件实体在各个维度的标签。


3.根据权利要求1所述的基于标签组织的磁光混合文件存储方法,其特征在于,采用Nosql索引技术,将文件记录与标签进行组织和关联,形成索引大表,形如“实体属性标...

【专利技术属性】
技术研发人员:朱云磊缪嘉嘉宁世洋李海锋毛捍东郭磊
申请(专利权)人:普世南京智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1