System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理及分布式储存领域,主要是一种对能源行业下实时状态数据的分布式储存方法。
技术介绍
1、大数据储存是指将大规模的数据储存在分布式储存系统中,以便于管理和处理。目前针对大数据储存方法的研究,现阶段已经有了很多应用的研究成果。传统的数据储存方法是以数据库为主导,系统通过结构化的查询语言管理庞大的技术流。目前的主流储存方法是以云空间为基础,利用云储存的相关特点,来避免因关系型数据库无法横向扩展导致的数据超载的情况,但该方法忽略了多维数据的特征,在处理多维数据时,对急剧增加的工作负载,抗压能力不足以支撑庞大的数据储存工作正常运行,并行处理能力不够。其次,发电能源行业的设备运行数据是企业工作决策的关键支撑,设备运行相关数据为安全生产提供了基本保障,因此,使用现代化技术对该实时数据进行及时储存成为了一个重要问题,如何提高数据访问效率成为了我们重点。
2、在大数据储存过程中,需要解决数据访问效率低和并发读写性差的问题。针对上述问题提出了一种基于智能聚类的ceph分布式大数据分层存储方法,通过将智能聚类技术运用到数据储存的方法中,基于ceph架提出分层储存方法,在保留数据特征的情况下进行了更好的分类,减小了后续压缩操作时需要消耗的资源和时间,优化了数据储存的并行工作能力,提高了数据访问效率,提高了数据储存能力。
技术实现思路
1、针对现有技术存在的问题,本专利技术提出了一种基于智能聚类的ceph分布式大数据分层存储方法,具体流程如图1所示。
2、技术方案
3、(1)计算样本点q1和q2之间的欧式距离,公式如下:
4、
5、式中,d(a,b)表示两点间的欧式距离,k表示维度,qka表示第a个点的第k维坐标,l表示数据分类个数,qkb表示第b个点的第k维坐标。
6、(2)设置初始化聚类中心集合为o,计算各数据点到聚类中心的欧式距离。
7、
8、(3)重新计算新的聚类中心,计算公式如下:
9、
10、其中,nm表示数据点的个数,
11、(4)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果。平方误差之和计算公式为:
12、
13、式中,e表示平方误差之和,qb表示数据集中属于oa的样本之一,ωoa表示oa类中所有样本的平均值。
14、(5)计算数据点满足大数据聚类需求的适合度:
15、γ(oa,ob)<=d1-maxγ(oa,ob)
16、上式,oa和ob表示两个聚类中心,γ表示点ob对于oa的适合度。
17、(6)γ取最大值,得到适合的聚类中心点,以聚类后的数据输入,实现大数据自动储存。
18、(7)建立分层聚类映射,计算分层映射节点位置,确保数据的合理分布:
19、
20、其中,χ为处理前的数据,δ为处理后的数据,γmax和γmin为输入数据中的最大值和最小值。
21、(8)计算数据的综合权重:
22、
23、其中,为综合权重计算结果,α为处理后数据对应的系数。
24、(9)计算ceph储存节点的综合权重:
25、
26、其中,w为储存节点权重,h为客户端和储存节点之间的拓扑距离,v表示磁盘读取速度,c表示cpu使用情况,μ表示内存使用情况,η1,η2,η3是每个性能指标对应的权重系数。
27、(10)储存节点读取:
28、g=wr
29、其中,g为节点读取选择结果,r为随机数。
30、(11)客户端调用应用接口,实现大数据储存服务。
31、本专利技术比现有技术具有的优点:
32、(1)该专利技术通过引入ceph储存节点的综合权重计算,实现了高性能节点可以在海量数据的情况下仍然有高访问频率,提高了数据访问效率。
33、(2)该专利技术通过智能聚类技术处理发电相关大数据,将数据按照不同维度进行分类,减小了后续压缩操作时需要消耗的资源和时间,优化了数据储存的并行工作能力。
本文档来自技高网...【技术保护点】
1.一种基于智能聚类的Ceph分布式大数据分层存储方法,其特征在于:(1)计算样本点q1和q2之间的欧式距离;(2)设置初始化聚类中心集合为O,计算各数据点到聚类中心的欧式距离;(3)重新计算新的聚类中心;(4)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果;(5)计算数据点满足大数据聚类需求的适合度;(6)γ取最大值,得到适合的聚类中心点,以聚类后的数据输入;(7)建立分层聚类映射,计算分层映射节点位置,确保数据的合理分布;(8)计算数据的综合权重;(9)计算Ceph储存节点的综合权重;(10)储存节点读取;(11)客户端调用应用接口,实现大数据储存服务;具体包括以下十一个步骤:
【技术特征摘要】
1.一种基于智能聚类的ceph分布式大数据分层存储方法,其特征在于:(1)计算样本点q1和q2之间的欧式距离;(2)设置初始化聚类中心集合为o,计算各数据点到聚类中心的欧式距离;(3)重新计算新的聚类中心;(4)计算样本空间内所有对象的平方误差之和,寻求使误差之和最小的聚类结果;(5)计算数据点满足大数...
【专利技术属性】
技术研发人员:胡周达,隆运鸿,钟漍标,
申请(专利权)人:广东省能源集团贵州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。