多模态数据存储管理的方法及系统技术方案

技术编号:36292933 阅读:58 留言:0更新日期:2023-01-13 10:06
本发明专利技术提供了一种多模态数据存储管理的方法及系统,包括:对多源异构数据进行统一描述;获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联;将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率。本发明专利技术在管理多源异构数据的同时还能完成历史数据的有效累积,实现对多源异构数据的统一描述,为多源数据提供一体化数据存储、访问服务,进一步促进数据综合治理系统的优化。统的优化。统的优化。

【技术实现步骤摘要】
多模态数据存储管理的方法及系统


[0001]本专利技术涉及多模态数据存储的
,具体地,涉及多模态数据存储管理的方法及系统。

技术介绍

[0002]信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。多模态数据存储是支撑上层数据融合管理和分析等服务的基础。针对实际应用中数据所具有的海量、复杂和多源异构特征,研究海量不确定异构数据的存储模型等理论方法和关键技术是海量异构数据分析、共享和开发的必要前提。多源异构数据的组织和管理是大数据时代的重要研究内容。随着用户数据不断增加,数据采集渠道不断丰富,其规模增长不受限制。另一方面,数据信息的载体多样化,从文字到图形、图像、声音,从结构化到半结构、非结构化,数据种类的增多也没有止境。
[0003]随着信息系统的研发和应用朝着智能化阶段迈进,对于海量多源异构数据进行多元化管理、标准化治理,并通过高质量数据实现精准治理、快速决策的业务需求成为了新的挑战。国内外围绕海量多模态数据的数据存储结构、管理方式展开了许多研究,进行了诸多努力与尝试。国外针对多模态数据的整合系统的研究发展迅速,已经开发出比较典型的集成系统。
[0004]Pentaho公司的首席技术官James Dixon提出数据湖作为一种大数据存储处理和共享服务机制。数据湖是一种能够保存数据原始格式的新型存储架构。它将所有结构化和非结构化数据存储在一个集中式存储库中,支持分布式地存储海量的结构化数据、半结构化数据和非结构化数据。允许扩展到任何规模的数据,同时节省定义数据结构、Schema和转换的时间。针对相关领域大数据多源异构特性,搭建数据湖用于存储多模态数据,可使得项目快速周转。
[0005]亚马逊、微软等国外领先云计算与人工智能企业基于数据湖技术需求,分别提出了AWS Lake Format ion、Azure Data Lake。亚马逊公司的Amazon Simple Storage Service(S3)是一种高性能对象存储服务,适用于结构化和非结构化数据,使用Amazon S3存储的数据受到99.999999999%的持久性保护,是可用于构建数据湖的存储服务。在Amazon S3上构建的数据湖,可以使用原生AWS服务运行大数据分析、人工智能(AI)、机器学习(ML)、高性能计算(HPC)和媒体数据处理应用程序,以便从多模态数据集中获得关键信息。
[0006]美国CSC公司开发的Multibase系统是一种集成异构分布式数据库系统,用于集成多源的、异构的、分布式数据库的访问。该系统抑制了数据库管理系统、语言和数据模型之间的差异,为用户提供了统一的全局模式和单一的高级查询语言,并且使得本地数据库保留了更新的自主权。
[0007]美国IBM公司开发了Garl ic系统,设计之初是为了建立一个异构数据库系统,能够集成不同数据库系统以及各种非数据库数据服务器中的数据。这种整合必须在保证数据
服务器独立性的同时不创建其数据的副本。由于数据大多是由对象自然建模的,因此该系统为应用程序提供了一个面向对象的模式,提供对象查询,创建并且将查询片段发送到适当的数据服务器,并汇编查询结果以将其传递回应用程序。
[0008]斯坦福大学研究开发的TSIMMIS是一个异构信息源集成系统,主要针对结构化数据和非结构化数据,从非结构化数据中提取属性的组件对象,将信息转换为公共对象模型,它结合了来自多个来源的信息,并且允许浏览信息,并管理约束跨异构站点。其优点是对任意数据源皆可适用,不同数据可以用不同程序解决。
[0009]随着社会经济的发展和各类大数据技术的运用,多源构数据已经成为社会经济发展的重要组成部分。有助于落实国家关于“数据是新的生产要素”的指示,切实促进我国数据管理和服务行业的发展。国内关于数字存储技术和多模态大数据融合的研究起步较晚,但随着对自主可控软硬件的重视,和国内对于多模态数据快速存储系统的需求增加,以及对信息化、现代化、智能化发展的重视,各个领域的多家企业和科研机构在相关技术研发方面取得了很大的进步。为解决多模态数据存储、分析和管理的问题,国内华为云、阿里云、腾讯云都发布了各自的数据湖及其数据存储服务。
[0010]北京大学开发的CoXML V1.0是基于可扩展置标语言(XML)的信息应用系统,能够实现数据的采集、管理以及共享。该系统以关系模型数据库为基础,开发了协同查询应答框架,实现了与其他数据库和数据源之间的查询应答机制。该系统能够基于协同查询应答机制建立通用平台,对海量的多源异构数据进行集成,管理以及共享。
[0011]南京南瑞集团公司基于Hadoop构建多源异构配用电数据存储技术。使配用电数据储存技术的数据更加标准和分布,存储层包括数据预处理和NoSQL两个重要部分。使用数据预处理将不同结构化的数据模式统一转化,统一的标准化模式使得多模态数据的储存和检索更容易实现,NoSQL使得数据进行分布式储存储。
[0012]针对上述中的相关技术,专利技术人认为存在海量多源异构数据的有效管理与存储问题,因此,需要提出一种新的技术方案以改善上述技术问题。

技术实现思路

[0013]针对现有技术中的缺陷,本专利技术的目的是提供一种多模态数据存储管理的方法及系统。
[0014]根据本专利技术提供的一种多模态数据存储管理的方法,所述方法包括如下步骤:
[0015]步骤S1:对多源异构数据进行统一描述,基于元数据,规范和驱动各类数据访问过程;
[0016]步骤S2:经过统一描述后的多源异构数据,获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联,进行跨越异构数据的语义分析、内在数据整合;
[0017]步骤S3:将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率。
[0018]优选地,所述步骤S1包括如下步骤:
[0019]步骤S1.1:研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取方法,对多源异构数据进行元数据归一化处理与入库存储,关注非结构化数据的统一描述;
[0020]步骤S1.2:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不改变原始数据的存储结构;
[0021]步骤S1.3:在扁平的命名空间内把所有数据存储为对象;
[0022]步骤S1.4:将相关信息存储到元数据的扩展属性空间。
[0023]优选地,所述步骤S1.3中的对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。
[0024]优选地,所述步骤S2抽取已读取文件的相关特性和对预读取的文件进行特性分析;根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据存储管理的方法,其特征在于,所述方法包括如下步骤:步骤S1:对多源异构数据进行统一描述,基于元数据,规范和驱动各类数据访问过程;步骤S2:经过统一描述后的多源异构数据,获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联,进行跨越异构数据的语义分析、内在数据整合;步骤S3:将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率。2.根据权利要求1所述的多模态数据存储管理的方法,其特征在于,所述步骤S1包括如下步骤:步骤S1.1:研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取方法,对多源异构数据进行元数据归一化处理与入库存储,关注非结构化数据的统一描述;步骤S1.2:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不改变原始数据的存储结构;步骤S1.3:在扁平的命名空间内把所有数据存储为对象;步骤S1.4:将相关信息存储到元数据的扩展属性空间。3.根据权利要求2所述的多模态数据存储管理的方法,其特征在于,所述步骤S1.3中的对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。4.根据权利要求1所述的多模态数据存储管理的方法,其特征在于,所述步骤S2抽取已读取文件的相关特性和对预读取的文件进行特性分析;根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对应的数字id,依据设定好的顺序进行拼接,得到一个能够用于计算的文件特征向量;然后把这些文件特征向量作为一个是否预取的评判标准,得到一系列的文件特征向量,然后将获得的向量与之前的评判标准向量进行对比分析得到文件关联度并判定是否预取该文件的元数据,最终输出所获得的预取元数据序列。5.根据权利要求1所述的多模态数据存储管理的方法,其特征在于,所述步骤S3中当用户发起文件访问操作时,对于文件元数据的读请求操作将首先通过文件系统到达客户端中,接着客户端在自身的本地缓存层中寻找目标文件的元数据,如果命中,客户端在本地缓存中处理本次操作后续的元数据请求,然后将相应的文件元数据信息返回上层;否则客户端会通过网络转发读请求操作给MDSs,当读请求操作到达其中的一个MDS后,该服务器上的元数据预取模块会根据关联分析模型给出的结果,在自身的服务器缓存层中寻找目标文件及其相关文件的元数据,然后将查找到的全部所需元数据打包后返回给客户端,在后续元数据访问时客户端无需再向MDS请求其他的相关元数据,待到客户端处理好这些文件的元数据后,再通过元数据中的数据索引信息与对应的OSD进行交互,最终完成文件的读操作。6.一种多模态...

【专利技术属性】
技术研发人员:张静逸江波张浩博雷旸王梦童
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1