一种基于智能聚类的Ceph分布式大数据分层存储方法技术

技术编号：40979615 阅读：2 留言：0更新日期：2024-04-18 21:26

一种基于智能聚类的Ceph分布式大数据分层存储方法，是一种能源行业设备实时状态数据的储存方法，属于数据处理与分布式储存领域，其特征在于采用以下主要步骤：(1)计算各数据点到聚类中心的欧式距离；(2)重新计算新的聚类中心；(3)计算样本空间内所有对象的平方误差之和，寻求使误差之和最小的聚类结果；(4)计算数据点满足大数据聚类需求的适合度；(5)确定适合的聚类中心点，以聚类后的数据输入；(6)建立分层聚类映射，确保数据的合理分布；(7)计算数据的综合权重；(8)计算储存节点的综合权重；(9)储存节点读取；(10)客户端调用应用接口，实现大数据储存服务。该发明专利技术提高了数据访问效率和并行处理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理及分布式储存领域，主要是一种对能源行业下实时状态数据的分布式储存方法。

技术介绍

1、大数据储存是指将大规模的数据储存在分布式储存系统中，以便于管理和处理。目前针对大数据储存方法的研究，现阶段已经有了很多应用的研究成果。传统的数据储存方法是以数据库为主导，系统通过结构化的查询语言管理庞大的技术流。目前的主流储存方法是以云空间为基础，利用云储存的相关特点，来避免因关系型数据库无法横向扩展导致的数据超载的情况，但该方法忽略了多维数据的特征，在处理多维数据时，对急剧增加的工作负载，抗压能力不足以支撑庞大的数据储存工作正常运行，并行处理能力不够。其次，发电能源行业的设备运行数据是企业工作决策的关键支撑，设备运行相关数据为安全生产提供了基本保障，因此，使用现代化技术对该实时数据进行及时储存成为了一个重要问题，如何提高数据访问效率成为了我们重点。

2、在大数据储存过程中，需要解决数据访问效率低和并发读写性差的问题。针对上述问题提出了一种基于智能聚类的ceph分布式大数据分层存储方法，通过将智能聚类技术运用到数据储存的方法中，基于ceph架提出分层储存方法，在保留数据特征的情况下进行了更好的分类，减小了后续压缩操作时需要消耗的资源和时间，优化了数据储存的并行工作能力，提高了数据访问效率，提高了数据储存能力。

技术实现思路

1、针对现有技术存在的问题，本专利技术提出了一种基于智能聚类的ceph分布式大数据分层存储方法，具体流程如图1所示。

2、技术方案实施步骤如下：

3、(1)计算样本点q1和q2之间的欧式距离，公式如下：

4、

5、式中，d(a,b)表示两点间的欧式距离，k表示维度，qka表示第a个点的第k维坐标，l表示数据分类个数，qkb表示第b个点的第k维坐标。

6、(2)设置初始化聚类中心集合为o，计算各数据点到聚类中心的欧式距离。

7、

8、(3)重新计算新的聚类中心，计算公式如下：

9、

10、其中，nm表示数据点的个数，

11、(4)计算样本空间内所有对象的平方误差之和，寻求使误差之和最小的聚类结果。平方误差之和计算公式为：

12、

13、式中，e表示平方误差之和，qb表示数据集中属于oa的样本之一，ωoa表示oa类中所有样本的平均值。

14、(5)计算数据点满足大数据聚类需求的适合度：

15、γ(oa,ob)＜＝d1-maxγ(oa,ob)

16、上式，oa和ob表示两个聚类中心，γ表示点ob对于oa的适合度。

17、(6)γ取最大值，得到适合的聚类中心点，以聚类后的数据输入，实现大数据自动储存。

18、(7)建立分层聚类映射，计算分层映射节点位置，确保数据的合理分布：

19、

20、其中，χ为处理前的数据，δ为处理后的数据，γmax和γmin为输入数据中的最大值和最小值。

21、(8)计算数据的综合权重：

22、

23、其中，为综合权重计算结果，α为处理后数据对应的系数。

24、(9)计算ceph储存节点的综合权重：

25、

26、其中，w为储存节点权重，h为客户端和储存节点之间的拓扑距离，v表示磁盘读取速度，c表示cpu使用情况，μ表示内存使用情况，η1,η2,η3是每个性能指标对应的权重系数。

27、(10)储存节点读取：

28、g＝wr

29、其中，g为节点读取选择结果，r为随机数。

30、(11)客户端调用应用接口，实现大数据储存服务。

31、本专利技术比现有技术具有的优点：

32、(1)该专利技术通过引入ceph储存节点的综合权重计算，实现了高性能节点可以在海量数据的情况下仍然有高访问频率，提高了数据访问效率。

33、(2)该专利技术通过智能聚类技术处理发电相关大数据，将数据按照不同维度进行分类，减小了后续压缩操作时需要消耗的资源和时间，优化了数据储存的并行工作能力。

本文档来自技高网...

【技术保护点】

1.一种基于智能聚类的Ceph分布式大数据分层存储方法，其特征在于：(1)计算样本点q1和q2之间的欧式距离；(2)设置初始化聚类中心集合为O，计算各数据点到聚类中心的欧式距离；(3)重新计算新的聚类中心；(4)计算样本空间内所有对象的平方误差之和，寻求使误差之和最小的聚类结果；(5)计算数据点满足大数据聚类需求的适合度；(6)γ取最大值，得到适合的聚类中心点，以聚类后的数据输入；(7)建立分层聚类映射，计算分层映射节点位置，确保数据的合理分布；(8)计算数据的综合权重；(9)计算Ceph储存节点的综合权重；(10)储存节点读取；(11)客户端调用应用接口，实现大数据储存服务；具体包括以下十一个步骤：

【技术特征摘要】

1.一种基于智能聚类的ceph分布式大数据分层存储方法，其特征在于：(1)计算样本点q1和q2之间的欧式距离；(2)设置初始化聚类中心集合为o，计算各数据点到聚类中心的欧式距离；(3)重新计算新的聚类中心；(4)计算样本空间内所有对象的平方误差之和，寻求使误差之和最小的聚类结果；(5)计算数据点满足大数...

【专利技术属性】
技术研发人员：胡周达，隆运鸿，钟漍标，
申请(专利权)人：广东省能源集团贵州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人