一种大数据分布式存储系统及方法技术方案

技术编号：39963331 阅读：6 留言：0更新日期：2024-01-09 00:13

本发明专利技术公开了一种大数据分布式存储系统及方法，涉及分布式存储系统领域，现提出如下方案，包括分节点写入单元、自定义分布式存储单元、对象存储单元、多协议共享方式拟定单元和测试与分析单元。本发明专利技术通过使用多个存储节点以分布式集群方式部署，通过两台核心交换机介入业务内网，保障存储系统上联具备万兆带宽，通过自定义分布式存储单元对写入的数据信息根据软件需求提供个性化数据存储服务，同时根据软件的需求对系统进行改进处理，最大限度地满足了数据的多样化，采用可扩展的系统结构，利用多台存储服务器分担存储负荷，不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分布式存储系统领域，尤其涉及一种大数据分布式存储系统及方法。

技术介绍

1、随着计算机信息技术与互联网信息技术的快速发展，计算机网络技术已经渗透进入各行各业，网络上的信息资源呈现爆发式增长，互联网信息技术的使用给我们的生活带来了极大的便利，但互联网上的信息十分庞杂，给使用者带来了巨大的困扰，大数据时代下的数据存储需求更加多样，传统的数据存储系统已经难以满足大数据存储的需求；

2、分布式存储系统是将数据分散存储在多台独立的设备上，传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要，当进行容量扩展时，需要静态停机，然后进行扩展存储，数据也要重新进行分布，若数据在某一时段骤增，信息数据增长速度大于数据库硬件升级速度，导致无法满足通过扩容对骤然增加数据存储的无缝连接，容易出现数据库容量不足，影响服务质量以及客户时效性需求，为此，我们提出了一种大数据分布式存储系统及方法。

技术实现思路

1、本专利技术提出的一种大数据分布式存储系统及方法，以解决现有技术中的上述不足之处。

2、为了实现上述目的，本专利技术采用了如下技术方案：

3、一种大数据分布式存储系统，包括分节点写入单元、自定义分布式存储单元、对象存储单元、多协议共享方式拟定单元和测试与分析单元；

4、所述分节点写入单元用于把原始n个数据块计算出m个校验块，编码成n+m份，写入数据时，n+m个数

5、所述自定义分布式存储单元用于对通过分节点写入单元写入的数据信息根据软件需求提供个性化数据存储服务，同时根据软件的需求对系统进行改进处理，最大限度地满足了数据的多样化，最典型的自定义分布式存储系统是ceph，所述ceph系统的对外接口更多，为软件提供了更加多样的访问路径，所述ceph系统的存储方案也是多样化的，所述ceph系统将多种存储模式纳入了框架中，但该系统不支持大跨度的规模布置，基于大数据的分布式存储技术已经衍生出多种数据存储类型，需要根据用户的实际使用进行设计，为客户提供优质的数据存储管理服务；

6、所述对象存储单元用于将通过分节点写入单元写入的数据信息根据不同对象属性进行存储管理(对象的数据被分散存放至哪几台分布式服务器中)，同时用于将元数据独立出来，控制节点称为元数据服务器(服务器+对象存储管理软件)，所述对象存储单元主要有3个方面的工作：

7、①将对象存储与目录结构结合，在提升吞吐量的同时提升了文件目录的移动速度；

8、②采用pd集群和tikv集群管理系统中的部分元数据，提高系统存储文件数量的上限，即系统具有较好的水平扩展性；

9、③引入代理节点并与引入虚拟节点的一致性哈希算法结合，提高数据的可靠性和系统扩容时的稳定性；

10、在文件存储中，文件为串行读写，一次磁盘读写操作的时间由寻道时间、旋转延时时间和传输时间决定，其中寻道时间ts包括跨越n条磁道的时间和启动磁臂的时间s，m是与磁盘驱动器速度有关的常数，约为0.2ms，即：

11、ts＝m*n+s；

12、旋转延迟时间tr为磁头定位到某一磁道扇区所需要的时间，设磁盘的旋转速度为r，则：

13、

14、传输时间tt为从磁盘读出或向磁盘写入数据所经历的时间，该时间取决于每次所读写的字节数b和磁盘的旋转速度，r为磁盘每秒的转数，n为一个磁道上的字节数，即：

15、

16、综上，使用文件存储时读取某文件的总耗时为t，其中c为该文件被切分的连续块数量，即：

17、

18、文件存储仅能串行地读取文件，而对象存储将文件的metadata和data分开存储，达到并行读取文件的效果，同时达到高吞吐的目的；

19、所述多协议共享方式拟定单元用于对多种操作系统客户端同时跨平台访问处理，运用nfs、cifs、ftp多种协议，实现window和linux多种操作系统客户端发起的以目录为单位的数据共享交互处理，并将共享的数据信息发送给测试与分析单元；

20、所述测试与分析单元用于以linux主机客户端共享nas存储系统数据进行测试处理，同时客户机通过nfs将存储系统共享目录挂载为本地客户机访问目录，使客户机就如同访问本机目录一样存取存储系统远程文件和目录处理。

21、进一步地，还包括数据接收单元、数据识别单元和数据价值度评估单元，所述数据接收单元用于通过主机对所有发送传输过来的文件数据信息进行快速接收整理处理，并将整理后的数据信息发送给数据识别单元；

22、所述数据识别单元用于对通过数据接收单元接收的数据信息进行文件和图片的分析识别处理，并将分析后的数据信息发送给数据价值度评估单元；

23、所述数据价值度评估单元用于对通过数据识别单元识别分析后的文件数据信息进行重要程度的分析评估处理。

24、进一步地，还包括临时阅读单元、数据编码单元和数据校验单元，所述临时阅读单元用于将通过数据价值度评估单元评定为文件价值度不高或属于临时文件后，不进行系统的存储和其他存储标识的处理；

25、所述数据编码单元用于对通过数据价值度评估单元评定为高质量和重要文件后，对不同价值度的文件进行复制和纠删码的编辑标注标识处理，并将标注标识后的文件数据信息发送给数据校验单元；

26、所述数据校验单元用于提高数据安全性，摒弃传统硬盘级raid模式，这种模式将数据存放于单节点上不同硬盘，只能容忍硬盘故障，不能容忍节点故障，当节点故障时，无法有效恢复数据，所述数据校验单元采用纠删码冗余保护机制，把原始n个数据块计算出m个校验块，编码成n+m份，写入数据时，n+m个数据块和校验块存储在不同节点的不同硬盘上，从而实现数据冗余保护，ec冗余方式空间利用率约为n/(n+m)，n至少为2，n越大，空间利用率越高，可靠性由m决定，m越大可靠性越高，当存储节点的个数≥n+m时采用n+m冗余配比，当(n+m)/m≤存储节点的个数＜n+m时采用n+m:1冗余配比，可实现数据可靠性和存储空间利用率的最佳配比。

27、进本文档来自技高网...

【技术保护点】

1.一种大数据分布式存储系统，其特征在于，包括分节点写入单元、自定义分布式存储单元、对象存储单元、多协议共享方式拟定单元和测试与分析单元；

2.根据权利要求1所述的一种大数据分布式存储系统，其特征在于，还包括数据接收单元、数据识别单元和数据价值度评估单元，所述数据接收单元用于通过主机对所有发送传输过来的文件数据信息进行快速接收整理处理，并将整理后的数据信息发送给数据识别单元；

3.根据权利要求2所述的一种大数据分布式存储系统，其特征在于，还包括临时阅读单元、数据编码单元和数据校验单元，所述临时阅读单元用于将通过数据价值度评估单元评定为文件价值度不高或属于临时文件后，不进行系统的存储和其他存储标识的处理；

4.根据权利要求1所述的一种大数据分布式存储系统，其特征在于，所述自定义分布式存储单元包括数据块存储模块、文件存储模块以及对象存储模块，所述文件存储模块用于支持Posix的CephFS存储系统、所述数据块存储模块用于支持数据块的Librbd存储系统、所述对象存储模块用于支持对象存储的RadosGW系统。

5.根据权利要求1所述的一种

6.根据权利要求2所述的一种大数据分布式存储系统，其特征在于，所述数据接收单元的输出端与数据识别单元的输入端相连接，所述数据识别单元的输出端与数据价值度评估单元的输入端相连接，所述数据价值度评估单元的输出端分别与临时阅览单元和数据编码单元的输入端相连接，所述数据编码单元的输出端与数据校验单元的输入端相连接，所述数据校验单元的输出端与分节点写入单元的输入端相连接，所述分节点写入单元的输出端分别与自定义分布式存储单元和对象存储单元的输入端相连接，所述自定义分布式存储单元的输出端与对协议共享方式拟定单元的输入端相连接，所述对象存储单元的输出端与多协议共享方式拟定单元的输入端相连接，所述多协议共享方式拟定单元的输出端与测试与分析单元的输入端相连接。

7.根据权利要求1所述的一种大数据分布式存储系统，其特征在于，所述分节点写入单元的输出端分别与数据块存储模块、文件存储模块和对象存储模块的输入端相连接，所述数据块存储模块、文件存储模块和对象存储模块的输出端分别与多协议共享方式拟定单元的输入端相连接。

8.根据权利要求1所述的一种大数据分布式存储系统，其特征在于，所述分节点写入单元的输出端与负载均衡模块的输入端相连接，所述负载均衡模块的输出端与元数据存储模块的输入端相连接，所述元数据存储模块的输出端与数据存储模块的输入端相连接，所述数据存储模块的输出端与多协议共享方式拟定单元的输入端相连接。

9.一种大数据分布式存储方法，其包括上述权利要求1-7任意一项所述的一种大数据分布式存储系统，其特征在于，包括如下步骤：

...

【技术特征摘要】

4.根据权利要求1所述的一种大数据分布式存储系统，其特征在于，所述自定义分布式存储单元包括数据块存储模块、文件存储模块以及对象存储模块，所述文件存储模块用于支持posix的cephfs存储系统、所述数据块存储模块用于支持数据块的librbd存储系统、所述对象存储模块用于支持对象存储的radosgw系统。

5.根据权利要求1所述的一种大数据分布式存储系统，其特征在于，所述对象存储单元包括负载均衡模块、元数据存储模块和数据存储模块，所述负载均衡模块用于提高系统的并发访问性能，该模块包括nginx和filegateway，采用nginx将用户访问分散至多个filegateway中，多个filegateway在高并发场景下起到一定的缓冲作用；

6.根据权利要求2所...

【专利技术属性】
技术研发人员：李涛，
申请(专利权)人：河北知时数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人