基于多中心云计算的数据分析系统及方法技术方案

技术编号:27977341 阅读:17 留言:0更新日期:2021-04-06 14:12
本发明专利技术云计算技术领域,具体涉及基于多中心云计算的数据分析系统及方法。所述系统包括:数据采集单元,配置用于采集原始数据;数据映射单元,配置用于对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据。其利用多个云计算单元针对原始数据在多个空间下的近似度分析,得出原始数据彼此之间的数据亲和度,在此基础上,再对原始数据进行聚类分析,其数据分析的结果更加准确,数据分析效率更高。

【技术实现步骤摘要】
基于多中心云计算的数据分析系统及方法
本专利技术属于云计算
,具体涉及基于多中心云计算的数据分析系统及方法。
技术介绍
云计算(cloudcomputing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取。这种特性经常被比喻为像水电一样使用硬件资源,按需购买和使用。大数据的总体架构包括三层:数据存储,数据处理和数据分析。数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。具体的来说一下云计算和大数据之间的关联:1、云计算是大数据分析的前提进入信息化时代之后,数据量在不断的增长,大部分企业都能通过大数据获得额外收益。在大数据分析的过程中,如果提取、处理和利用数据的成本超过了数据价值的本身,那大数据分析也就没有了利用价值,功能越加强大的云计算能力,就越能降低数据提取过程中的成本。2、云计算能够过滤无用信息对于大数据系统收集的所有数据来说,大部分数据都是没有利用价值的,因此需要过滤出能为企业提供经济效益的可用数据。云计算可以提供按需拓展的存储资源,可以用来过滤掉无用的数据,是处理外部网络数据的最佳选择。3、云计算助力企业虚拟化建设企业引入云计算系统,可以用信息来指导决策,通过将服务软件应用于云平台,还可将数据转化到企业现有系统中,帮助企业强化管理模式。上升到我国互联网整体发展层面,云计算与企业相结合将使得大数据分析变得更加简单,也成为推动企业虚拟化建设的重要手段,将使企业在全球市场更具竞争力。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供基于多中心云计算的数据分析系统及方法,其利用多个云计算单元针对原始数据在多个空间下的近似度分析,得出原始数据彼此之间的数据亲和度,在此基础上,再对原始数据进行聚类分析,其数据分析的结果更加准确,数据分析效率更高。为达到上述目的,本专利技术的技术方案是这样实现的:基于多中心云计算的数据分析系统,所述系统包括:数据采集单元,配置用于采集原始数据;数据映射单元,配置用于对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度,在所有的云计算单元完成在其对应空间下的归一化近似度计算后,统计近似度高于设定阈值的空间映射值的数量,该数量作为该原始数据与相邻原始数据的数据亲和度;所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据;数据分析单元,配置用于将数据亲和度超过设定的阈值的两个原始数据进行归类,作为一个类别;完成归类后,针对所有类别的原始数据,计算得到聚类中心,基于计算得到的聚类中心,进行聚类分析。进一步的,所述数据分析单元计算得到聚类中心包括以下步骤:类别总数记为G,通过如下公式,计算得到聚类中心其中,G为类别总数,c为聚类数,N为样本总数,UG表示第G个维度下的隶属度矩阵,VG表示第G个维度下的聚类中心,XG表示第G个维度小的聚类样本,表示第G个维度下的第i类的中心点,d为样本的维度数,xj,G表示第G个维度下的第j个样本点,μij,G表示第G个维度下的第j个样本属于第i类的隶属度,m为调整系数,必须满足m<1:根据建立的聚类中心,为聚类中心。进一步的,所述数据分析单元基于建立的聚类中心,进行聚类分析包括以下步骤:计算每个原始数据距离聚类中心的距离;根据计算出的距离,得到该原始数据的坐标点;将得到的所有的坐标点组成一个集合,作为原始数据坐标点集合;在得到的原始数据坐标点结合上,再进行聚类分析。进一步的,所述云计算单元,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤:设定每个空间映射值的距离变换函数为:其中,d(p,q)表示每个空间映射值的欧氏距离的集合,p和q分别表示每个原始数据的横坐标和纵坐标;空间映射值Da(p)表示空间映射值的纵坐标,Db(q)表示空间映射值的横坐标,Ib表示横坐标的范围值,其取值范围为{2~10};hb位纵坐标的范围值,其取值范围为{3~12}。进一步的,所述云计算单元计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法包括:设定目标原始数据的坐标为:(x′n,,y′n);将该作为视为混沌系统中的一个点,并得到该点的混沌映射方程为:其中,进而通过如下公式,得到目标原始数据与其他相邻原始数据进行分析计算的顺序方程为:其中,xn和yn为下一个进行分析计算的原始数据的横坐标和纵坐标;x′n和y′n为当前进行分析计算的原始数据的横坐标和纵坐标;a为第一调整参数,范围为:(1~5);c为第一调整系数,范围为(1.1~1.5);b为第二调整参数,范围为:(1~5);d为第二调整系数,范围为(1.1~1.5)。进一步的,所述数据分析单元在进行归类时,将遍历整个原始数据,同一类别中,存在多个原始数据。一种基于多中心云计算的数据分析方法,所述方法执行以下步骤:步骤1:采集原始数据;步骤2:对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;步骤3:建立多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度,在所有的云计算单元完成在其对应空间下的归一化近似度计算后,统计近似度高于设定阈值的空间映射值的数量,该数量作为该原始数据与相邻原始数据的数据亲和度;所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据;步骤4:将数据亲和度超过设定的阈值的两个原始数据进行归类,作为一个类别;完成归类后,针对所有类别的原始数据,计算得到聚类中心,基于计算得到的聚类中心,进行聚类分析。进一步的,所述计算得到聚类中心包括以下步骤:类别总数记为G,通过如下公式,计算得到聚类中心其中,G为类别总数,c为聚类数,N为样本总数,UG表示第G个维度下的隶属度矩阵,VG表示本文档来自技高网
...

【技术保护点】
1.基于多中心云计算的数据分析系统,其特征在于,所述系统包括:/n数据采集单元,配置用于采集原始数据;/n数据映射单元,配置用于对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;/n多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度,在所有的云计算单元完成在其对应空间下的归一化近似度计算后,统计近似度高于设定阈值的空间映射值的数量,该数量作为该原始数据与相邻原始数据的数据亲和度;所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据;/n数据分析单元,配置用于将数据亲和度超过设定的阈值的两个原始数据进行归类,作为一个类别;完成归类后,针对所有类别的原始数据,计算得到聚类中心,基于计算得到的聚类中心,进行聚类分析。/n

【技术特征摘要】
1.基于多中心云计算的数据分析系统,其特征在于,所述系统包括:
数据采集单元,配置用于采集原始数据;
数据映射单元,配置用于对原始数据进行多空间映射,得到在每个空间下的映射值,基于得到的映射值,针对每个原始数据建立多空间映射集合;
多个并联的云计算单元,云计算单元的数量与进行多空间映射所使用的的空间数量相同,每个云计算单元针对每个原始数据,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度,在所有的云计算单元完成在其对应空间下的归一化近似度计算后,统计近似度高于设定阈值的空间映射值的数量,该数量作为该原始数据与相邻原始数据的数据亲和度;所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据;
数据分析单元,配置用于将数据亲和度超过设定的阈值的两个原始数据进行归类,作为一个类别;完成归类后,针对所有类别的原始数据,计算得到聚类中心,基于计算得到的聚类中心,进行聚类分析。


2.如权利要求1所述的系统,其特征在于,所述数据分析单元计算得到聚类中心包括以下步骤:类别总数记为G,通过如下公式,计算得到聚类中心





其中,G为类别总数,c为聚类数,N为样本总数,UG表示第G个维度下的隶属度矩阵,VG表示第G个维度下的聚类中心,XG表示第G个维度小的聚类样本,表示第G个维度下的第i类的中心点,d为样本的维度数,xj,G表示第G个维度下的第j个样本点,μij,G表示第G个维度下的第j个样本属于第i类的隶属度,m为调整系数,必须满足m<1:根据建立的聚类中心,为聚类中心。


3.如权利要求2所述的系统,其特征在于,所述数据分析单元基于建立的聚类中心,进行聚类分析包括以下步骤:计算每个原始数据距离聚类中心的距离;根据计算出的距离,得到该原始数据的坐标点;将得到的所有的坐标点组成一个集合,作为原始数据坐标点集合;在得到的原始数据坐标点结合上,再进行聚类分析。


4.如权利要求3所述的系统,其特征在于,所述云计算单元,计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤:设定每个空间映射值的距离变换函数为:其中,d(p,q)表示每个空间映射值的欧氏距离的集合,p和q分别表示每个原始数据的横坐标和纵坐标;空间映射值Da(p)表示空间映射值的纵坐标,Db(q)表示空间映射值的横坐标,Ib表示横坐标的范围值,其取值范围为{2~10};hb位纵坐标的范围值,其取值范围为{3~12}。


5.如权利要求4所述的系统,其特征在于,所述云计算单元计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法包括:设定目标原始数据的坐标为:(x′n,,y′n);将该作为视为混沌系统中的一个点,并得到该点的混沌映射方程为:其中,进而通过如下公式,得到目标原始数据与其他相邻原始数据进行分析计算的顺序方程为:其中,xn和yn为下一个进行分析...

【专利技术属性】
技术研发人员:邱建强
申请(专利权)人:山东鑫泰洋智能科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1