本发明专利技术涉及数据存储和访问技术领域,具体公开一种非结构化与结构化数据全局命名空间的管理方法和装置,该方法包括:在Hubble Store提供的全局命名空间中存储非结构化与结构化数据;通过全局命名空间对非结构化与结构化数据进行访问、移动、同步或查询分析;利用Hubble Store扩展存储空间,并对AI训练和数据管道进行加速,满足AI训练时对存储空间需求,以及对非结构化与结构化数据的访问速度需求。本发明专利技术通过全局命名空间在不同环境中统一管理结构化和非结构化数据,提高了数据处理效率,扩大了存储容量,优化了数据同步机制,提升了系统可扩展性,有效地解决现有技术中数据处理效率低、存储容量有限、数据分析能力不足的问题。
【技术实现步骤摘要】
本专利技术涉及数据存储和访问,具体涉及一种非结构化与结构化数据全局命名空间的管理方法和装置。
技术介绍
1、在数据密集型计算领域,传统的数据存储和处理方法面临着多方面的挑战。随着人工智能和机器学习技术的快速发展,对于能够高效处理和分析大规模结构化与非结构化数据的需求日益增长。结构化数据,如数据库中的表格,易于查询和分析,但它们通常无法容纳大量的非结构化数据,如文本、图像和视频。而非结构化数据,尽管包含了丰富的信息,但其处理和分析却更为复杂。
2、近年来,一些解决方案试图通过分布式存储系统来解决这一问题,但它们往往需要在性能、容量、事务性和分析性之间做出妥协。例如,某些系统可能提供了高性能的数据访问,但却以牺牲存储容量为代价;另一些则可能支持大规模数据分析,但无法有效地处理实时数据流。
3、在大数据生态种hdfs做分布式文件系统,管理文件的元数据可以存储非结构数据如文本等信息,hbase是基于hdfs存储的kv数据库、hive是基于hdfs的结构化数据仓库等,在非结构如文本等数据的命名空间是由hdfs呈现,提供了基于文件目录结构的命名空间,在kv数据的命名空间是由hbase呈现,可以通过hbase的sdk、cli等方式查看命名空间,hive的metastroe服务管理结构化数据的名空间,以上三种数据都是文件的形式存储在hdfs上,但是这三种数据的命名空间并没有统一,在不同的组件种呈现,在使用上也因为在不同的命名空间而受到了限制,三种数据结构并没打通,需要调用不同的接口来处理,且数据之间的转换需要etl。p>4、云服务提供商的数据解决方案:如aws、azure和google cloud platform等云服务提供商,它们提供了一系列的数据存储和处理服务,包括对象存储、文件存储和数据库服务。这些服务通常具有高度的可扩展性和灵活性,能够支持各种规模的数据处理需求。
5、分布式文件系统和对象存储:如ceph和hadoop hdfs等开源解决方案,它们能够在商品硬件上构建高度可扩展的存储系统。这些系统特别适合于需要处理大量非结构化数据的应用场景。
6、专门的大数据和分析平台:如snowflake和databricks等公司提供的解决方案,它们专注于数据仓库和大数据分析,提供了强大的数据查询和分析能力。
7、新兴的ai算力云服务:如coreweave等公司提供的服务,它们提供了专门针对ai和机器学习工作负载优化的计算和存储资源。
8、每种数据解决方案都有其独特的优势和局限性。选择哪种方案取决于多种因素,包括数据类型、数据量、性能需求、成本考虑以及用户对技术的熟悉程度。
9、hubble store通过统一的软件平台,将存储、数据库和计算功能融合在一起,旨在为现代数据中心和云环境提供ai和深度学习所需的基础设施。该平台采用了全新的分布式系统架构,消除了运行系统逻辑的机器之间的通信或相互依赖性,从而实现了在任何规模上并行读写操作的能力。此外还提供了一个全局的命名空间,支持结构化查询分析工具,如presto、trino、spark,以及ai训练工具,如pytorch和tensorflow,有效地统一了结构化和非结构化数据的处理。
10、基于这一技术背景,本专利技术研究了一种非结构化与结构化数据全局命名空间的管理方法和装置。
技术实现思路
1、针对现有技术的不足,本专利技术提供一种非结构化与结构化数据全局命名空间的管理方法和装置,该方法通过全局命名空间在不同环境中统一管理结构化和非结构化数据,提高了数据处理效率,扩大了存储容量,优化了数据同步机制,提升了系统可扩展性,有效地解决现有技术中数据处理效率低、存储容量有限、数据分析能力不足的问题。
2、为了实现上述目的,本专利技术的第一方面提供一种非结构化与结构化数据全局命名空间的管理方法,包括:
3、在hubble store提供的全局命名空间中存储非结构化与结构化数据;
4、通过所述全局命名空间对所述非结构化与结构化数据进行访问、移动、同步或查询分析;
5、利用hubble store扩展存储空间,并对ai训练和数据管道进行加速,满足所述ai训练时对存储空间需求,以及对所述非结构化与结构化数据的访问速度需求。
6、本专利技术的第二方面提供一种非结构化与结构化数据全局命名空间的管理装置,包括:
7、空间存储模块,用于在hubble store提供的全局命名空间中存储非结构化与结构化数据;
8、数据操作模块,用于通过所述全局命名空间对所述非结构化与结构化数据进行访问、移动、同步或查询分析;
9、加速模块,用于利用hubble store扩展存储空间,并对ai训练和数据管道进行加速,满足所述ai训练时对存储空间需求,以及对所述非结构化与结构化数据的访问速度需求。
10、本专利技术的第三方面提供一种电子设备,所述电子设备包括:
11、存储器,存储有可执行指令;
12、处理器,所述处理器运行所述存储器中的所述可执行指令,以实现第一方面所述的非结构化与结构化数据全局命名空间的管理方法。
13、本专利技术的第四方面提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述的非结构化与结构化数据全局命名空间的管理方法。
14、本专利技术的有益效果包括:
15、(1)本专利技术提出的非结构化与结构化数据全局命名空间的管理方法,通过全局命名空间在不同环境中统一管理结构化和非结构化数据,提高了数据处理效率,扩大了存储容量,优化了数据同步机制,提升了系统可扩展性,有效地解决现有技术中数据处理效率低、存储容量有限、数据分析能力不足的问题。
16、(2)本专利技术提出的非结构化与结构化数据全局命名空间的管理方法,提高了数据处理效率,扩大了存储容量,并增强了数据分析能力,为现代数据中心和云环境中处理大规模结构化和非结构化数据的企业提供了理想的选择。
17、(3)本专利技术提出的非结构化与结构化数据全局命名空间的管理方法,通过全局命名空间,用户可以无缝地在本地和云环境之间移动和访问数据,无需管理多个数据副本,同时,通过hubble store加速了ai和数据管道,使得特征工程变得更加高效。
18、本专利技术的其它特征和优点将在随后具体实施方式部分予以详细说明。
本文档来自技高网...
【技术保护点】
1.一种非结构化与结构化数据全局命名空间的管理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在Hubble Store提供的全局命名空间中存储非结构化与结构化数据包括:
3.根据权利要求2所述的方法,其特征在于,通过所述全局命名空间对所述非结构化与结构化数据进行访问包括:
4.根据权利要求1所述的方法,其特征在于,通过所述全局命名空间对所述非结构化与结构化数据进行访问、移动包括:
5.根据权利要求1所述的方法,其特征在于,通过所述全局命名空间对所述非结构化与结构化数据进行同步包括:
6.根据权利要求1所述的方法,其特征在于,所述查询分析的工具包括Presto、Trino和Spark;
7.根据权利要求6所述的方法,其特征在于,利用Hubble Store对AI训练和数据管道进行加速包括:
8.一种非结构化与结构化数据全局命名空间的管理装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的非结构化与结构化数据全局命名空间的管理方法。
...
【技术特征摘要】
1.一种非结构化与结构化数据全局命名空间的管理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在hubble store提供的全局命名空间中存储非结构化与结构化数据包括:
3.根据权利要求2所述的方法,其特征在于,通过所述全局命名空间对所述非结构化与结构化数据进行访问包括:
4.根据权利要求1所述的方法,其特征在于,通过所述全局命名空间对所述非结构化与结构化数据进行访问、移动包括:
5.根据权利要求1所述的方法,其特征在于,通过所述全局命名空间对所述非结构化与结构化数据进行同步包括:
<...
【专利技术属性】
技术研发人员:刘晨希,叶文广,乔旺龙,
申请(专利权)人:天云融创数据科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。