System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于智能聚类的Ceph分布式大数据分层存储方法技术_技高网

一种基于智能聚类的Ceph分布式大数据分层存储方法技术

技术编号:40979615 阅读:2 留言:0更新日期:2024-04-18 21:26
一种基于智能聚类的Ceph分布式大数据分层存储方法,是一种能源行业设备实时状态数据的储存方法,属于数据处理与分布式储存领域,其特征在于采用以下主要步骤:(1)计算各数据点到聚类中心的欧式距离;(2)重新计算新的聚类中心;(3)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果;(4)计算数据点满足大数据聚类需求的适合度;(5)确定适合的聚类中心点,以聚类后的数据输入;(6)建立分层聚类映射,确保数据的合理分布;(7)计算数据的综合权重;(8)计算储存节点的综合权重;(9)储存节点读取;(10)客户端调用应用接口,实现大数据储存服务。该发明专利技术提高了数据访问效率和并行处理能力。

【技术实现步骤摘要】

本专利技术涉及数据处理及分布式储存领域,主要是一种对能源行业下实时状态数据的分布式储存方法。


技术介绍

1、大数据储存是指将大规模的数据储存在分布式储存系统中,以便于管理和处理。目前针对大数据储存方法的研究,现阶段已经有了很多应用的研究成果。传统的数据储存方法是以数据库为主导,系统通过结构化的查询语言管理庞大的技术流。目前的主流储存方法是以云空间为基础,利用云储存的相关特点,来避免因关系型数据库无法横向扩展导致的数据超载的情况,但该方法忽略了多维数据的特征,在处理多维数据时,对急剧增加的工作负载,抗压能力不足以支撑庞大的数据储存工作正常运行,并行处理能力不够。其次,发电能源行业的设备运行数据是企业工作决策的关键支撑,设备运行相关数据为安全生产提供了基本保障,因此,使用现代化技术对该实时数据进行及时储存成为了一个重要问题,如何提高数据访问效率成为了我们重点。

2、在大数据储存过程中,需要解决数据访问效率低和并发读写性差的问题。针对上述问题提出了一种基于智能聚类的ceph分布式大数据分层存储方法,通过将智能聚类技术运用到数据储存的方法中,基于ceph架提出分层储存方法,在保留数据特征的情况下进行了更好的分类,减小了后续压缩操作时需要消耗的资源和时间,优化了数据储存的并行工作能力,提高了数据访问效率,提高了数据储存能力。


技术实现思路

1、针对现有技术存在的问题,本专利技术提出了一种基于智能聚类的ceph分布式大数据分层存储方法,具体流程如图1所示。

2、技术方案实施步骤如下:

3、(1)计算样本点q1和q2之间的欧式距离,公式如下:

4、

5、式中,d(a,b)表示两点间的欧式距离,k表示维度,qka表示第a个点的第k维坐标,l表示数据分类个数,qkb表示第b个点的第k维坐标。

6、(2)设置初始化聚类中心集合为o,计算各数据点到聚类中心的欧式距离。

7、

8、(3)重新计算新的聚类中心,计算公式如下:

9、

10、其中,nm表示数据点的个数,

11、(4)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果。平方误差之和计算公式为:

12、

13、式中,e表示平方误差之和,qb表示数据集中属于oa的样本之一,ωoa表示oa类中所有样本的平均值。

14、(5)计算数据点满足大数据聚类需求的适合度:

15、γ(oa,ob)<=d1-maxγ(oa,ob)

16、上式,oa和ob表示两个聚类中心,γ表示点ob对于oa的适合度。

17、(6)γ取最大值,得到适合的聚类中心点,以聚类后的数据输入,实现大数据自动储存。

18、(7)建立分层聚类映射,计算分层映射节点位置,确保数据的合理分布:

19、

20、其中,χ为处理前的数据,δ为处理后的数据,γmax和γmin为输入数据中的最大值和最小值。

21、(8)计算数据的综合权重:

22、

23、其中,为综合权重计算结果,α为处理后数据对应的系数。

24、(9)计算ceph储存节点的综合权重:

25、

26、其中,w为储存节点权重,h为客户端和储存节点之间的拓扑距离,v表示磁盘读取速度,c表示cpu使用情况,μ表示内存使用情况,η1,η2,η3是每个性能指标对应的权重系数。

27、(10)储存节点读取:

28、g=wr

29、其中,g为节点读取选择结果,r为随机数。

30、(11)客户端调用应用接口,实现大数据储存服务。

31、本专利技术比现有技术具有的优点:

32、(1)该专利技术通过引入ceph储存节点的综合权重计算,实现了高性能节点可以在海量数据的情况下仍然有高访问频率,提高了数据访问效率。

33、(2)该专利技术通过智能聚类技术处理发电相关大数据,将数据按照不同维度进行分类,减小了后续压缩操作时需要消耗的资源和时间,优化了数据储存的并行工作能力。

本文档来自技高网...

【技术保护点】

1.一种基于智能聚类的Ceph分布式大数据分层存储方法,其特征在于:(1)计算样本点q1和q2之间的欧式距离;(2)设置初始化聚类中心集合为O,计算各数据点到聚类中心的欧式距离;(3)重新计算新的聚类中心;(4)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果;(5)计算数据点满足大数据聚类需求的适合度;(6)γ取最大值,得到适合的聚类中心点,以聚类后的数据输入;(7)建立分层聚类映射,计算分层映射节点位置,确保数据的合理分布;(8)计算数据的综合权重;(9)计算Ceph储存节点的综合权重;(10)储存节点读取;(11)客户端调用应用接口,实现大数据储存服务;具体包括以下十一个步骤:

【技术特征摘要】

1.一种基于智能聚类的ceph分布式大数据分层存储方法,其特征在于:(1)计算样本点q1和q2之间的欧式距离;(2)设置初始化聚类中心集合为o,计算各数据点到聚类中心的欧式距离;(3)重新计算新的聚类中心;(4)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果;(5)计算数据点满足大数...

【专利技术属性】
技术研发人员:胡周达隆运鸿钟漍标
申请(专利权)人:广东省能源集团贵州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1