一种大数据环境下的数据分布方法、装置、设备及介质制造方法及图纸

技术编号：37054433 阅读：18 留言：0更新日期：2023-03-29 19:31

本发明专利技术数据数据处理技术领域，具体涉及一种大数据环境下的数据分布方法、装置、设备及介质，本发明专利技术数据分布方法包括：接收存储请求；其中，存储请求中包括待存储对象的id和数据大小len

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据环境下的数据分布方法、装置、设备及介质

[0001]本专利技术属于数据处理
，具体涉及一种大数据环境下的数据分布方法、装置、设备及介质。

技术介绍

[0002]对象存储是一种高性能的分布式并行存储技术，用于解决海量数据存储的问题。对象存储系统由于具有块存储系统、文件存储系统无可比拟的可扩展性、数据可靠性和可管理性等特性，已成为当前主流存储架构。在对象存储中，一切数据都以对象的形式存储到对象存储设备（object
‑
based storage device)中。同时，对象存储体系结构很好地实现了文件数据在对象存储设备上地并行性，提高系统地I/O性能。
[0003]如何将数据合理地分布到异构地对象存储设备中是需要解决的问题。如果将数据对象随机存储到任意地对象存储设备中，会导致某一个存储节点的负载过高，从而降低整个系统的读写性能，并且数据对象的读写等操作集中在一部分热点区域，会导致硬件设备的使用寿命减少，也会造成整个系统性能的下降。
[0004]目前的对象存储策略主要有两种：第一种策略采用顺序分配的方式，将所有的对象存储设备按照一定的顺序编上序号，按照给定的顺序将待存储的对象以此存入有效的存储设备中；第二种策略采用哈希的思想，是一种随机存储的策略，通过哈希环、跳跃哈希等方法随机选择存储节点进行存储。这些方法在存储设备是同构的情况下应用较好，当时随着异构存储设备地不断使用和扩展，使用这些方法容易将数据对象存入负载较大，读写性能又较差地存储设备中。现有的方法很少考虑存储设备本身...

【技术保护点】

【技术特征摘要】
1.一种大数据环境下的数据分布方法，其特征在于，包括如下步骤：接收存储请求；其中，所述存储请求中包括待存储对象的id和数据大小len
i
；当待存储对象的数据大小len
i
大于预设的设定对象分片阈值threshold时，对所述待存储对象进行分片；计算所述待存储对象的分片的最优存储节点，将所述待存储对象的分片存储于所述最优存储节点中。2.根据权利要求1所述的大数据环境下的数据分布方法，其特征在于，所述对所述待存储对象进行分片的步骤中，所述待存储对象的分片数量按照下式计算：计算出上式中n
i
的最小值，令；若，则令；其中，f(n
i
)为n
i
的函数，n
i
为待存储对象Obj
i
的分片个数，为在客户端分裂数据的开销，b
i
为数据传输时间，N为服务器端对象存储设备的数量。3.根据权利要求1所述的大数据环境下的数据分布方法，其特征在于，所述计算所述待存储对象的分片的最优存储节点，将所述待存储对象的分片存储于所述最优存储节点中的步骤，具体包括如下：计算存储节点的剩余磁盘空间占总磁盘剩余空间的比例，以及内存大小占总内存大小的比例；基于所述比例和比例计算所述存储节点对应的负载率；建立最小负载节点堆；将负载率作为最小负载节点堆的键，存储节点作为值添加进最小负载节点堆，将所述存储节点按照负载率的大小进行升序排序；将所述待存储对象Obj
i
分割成n
i
片，每一片待存储对象Obj
i
记为片；弹出所述最小负载节点堆堆顶的存储节点，将片存入弹出的所述存储节点中，直至所有的片存储完成；其中，每次弹出的所述存储节点对应存储一个片。4.根据权利要求3所述的大数据环境下的数据分布方法，其特征在于...

【专利技术属性】
技术研发人员：冯帆，王世军，舒安杰，李默晗，杨杨，黄宇翔，李小翔，韦玮，杨永前，邸智，付雄，孙英，潘东阳，薛丽，陈铮楠，
申请(专利权)人：华能置业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人