数据生成方法和装置制造方法及图纸

技术编号:14825849 阅读:50 留言:0更新日期:2017-03-16 13:25
本发明专利技术提供了一种数据生成方法和装置,属于数据处理技术领域。该方法根据部分或少量样本数据,以聚类的方式找到质心,提取样本数据的特征,作为数据生成的模板;再根据所述模板生成大量的实验仿真数据,方法简便,易实现。由于生成实验仿真数据依据的是实际样本数据,利用这些实际样本数据仿真可有效地提高仿真的实际效果,与传统的随机生成数据的方法相比,更具可靠性和真实性。

【技术实现步骤摘要】

本专利技术涉及数据处理
,具体而言,涉及一种数据生成方法和装置
技术介绍
随着信息技术和计算机网络技术的迅速发展,传统的制造模式已经不能适应现代化生产的制造要求。为了响应市场的快速变化和提高企业的核心竞争力,工业界和学术界研究提出了一批先进制造技术或模式,如:制造网格(MGrid)、全球化制造(Globalmanufacturing)、虚拟制造(VM)、敏捷制造(AM)等。当前对网络化制造的研究主要是基于在各企业间建立信息共享技术,通过企业间的协同合作以及制造资源的集成与共享,从而生产出能够适应市场变化的高质量产品。虽然网络化制造已经有了较大的发展,但是在技术上还存在着一定的问题,如没有很好地解决制造资源的动态共享与智能分配以及制造资源在网络通信、数据传输中的安全性等,这些问题严重阻碍了网络化制造的推广应用。针对这些问题,研究人员提出了一种基于云计算服务模式的网络化制造新模式—云制造(Cloudmanufacturing,CMfg)。云制造技术是一种基于网络的、面向服务的制造新模式,融合与发展了现有信息化制造技术(信息化设计、生产、实验、仿真、集成)及新兴信息技术(云计算、物联网、服务计算、智能科学、高效能计算等)。将各类制造资源和制造能力虚拟化、服务化,构成服务云池,并进行统一集中的管理和经营通过网络实现随时按客户需求获取制造资源与能力服务,以完成其制造全生命周期的各类活动。随着云制造概念及相关技术的发展,相关的云制造仿真平台也不断更新迭代。云制造仿真平台主要用于针对云制造相关的模式、规则、算法、通信等技术做仿真,对相关技术进行验证。然而,由于云制造是把大量的高度虚拟化的计算资源管理起来,这些资源通过随机生成数据进行仿真,而并不以实际数据为依据。因此,在云制造环境下,广大科研人员很难获取到实际的或接近实际的数据,仿真的效果与实际差距较大,对技术的验证力度不足。
技术实现思路
有鉴于此,本专利技术提供了一种数据生成方法和装置,基于实际的样本数据生成实验仿真数据,有效地提高了仿真的实际效果。第一方面,本专利技术实施例提供了一种数据生成方法,应用于仿真平台中,包括:确定实际样本数据的向量总数和向量维度;根据所述向量维度计算所述实际样本数据中的所有向量之间的欧氏距离,将欧氏距离最大的两个向量作为所述实际样本数据的初始质心;对于所述实际样本数据中的每个向量依次进行下述处理:计算当前向量与所述实际样本数据的当前各个质心的欧氏距离,根据三角形法则和所述欧氏距离判断所述当前向量是否存在所归属的簇;如果是,将所述当前向量添加至所归属的簇,并根据所述簇内的所有向量计算所述簇的新的质心;如果否,将所述当前向量作为所述实际样本数据的新的质心;当所述实际样本数据中的每个向量均完成上述处理时,获取每个簇中向量的个数,去掉向量个数小于预设值的簇;根据得到的所有簇和质心,计算簇内的向量数量与所述实际样本数据的向量总数的数据比例和噪声数据比;将所述实际样本数据的质心、每个簇的数据比例及噪声数据比,作为仿真模板;根据所述仿真模板生成所述实际样本数据的实验仿真数据。结合第一方面,本专利技术实施例还提供了第一方面的第一种可能的实施方式,其中,根据所述向量维度计算所述实际样本数据中的所有向量之间的欧氏距离,包括:采用公式计算两个向量之间的欧氏距离;其中,a、b为向量,m为向量维度,ai为向量a的第i维的值、bi为向量b的第i维的值。结合第一方面,本专利技术实施例还提供了第一方面的第二种可能的实施方式,其中,根据三角形法则和所述欧氏距离判断所述当前向量是否存在所归属的簇;包括:找到与所述当前向量欧氏距离最小的两个质心;若公式Dist(a,K1)+Dist(a,K2)>Dist(K1,K2)不成立,则所述当前向量存在所归属的簇,所述当前向量所归属的簇为与所述当前向量欧氏距离最小的质心所在的簇;若公式Dist(a,K1)+Dist(a,K2)>Dist(K1,K2)成立,则所述当前向量不存在所归属的簇;式中,a为所述当前向量,K1、K2为与所述当前向量a欧氏距离最小的两个质心。结合第一方面,本专利技术实施例还提供了第一方面的第三种可能的实施方式,其中,根据所述簇内的所有向量计算所述簇的新的质心,包括:以所述簇的当前质心作为圆心,簇内与所述圆心欧氏距离最大的向量到圆心的距离作为半径,建立一个高维球;计算所述高维球内所有的向量与圆心之间的距离向量,采用公式将所有距离向量全部相加,得到概率密度向量;其中,Mh为概率密度向量,x为当前质心,xi为高维球内的向量,Sk为高维球内所有向量的集合,K为高维球内的向量数量;以Meanshift向量的终点为圆心,再建立一个高维球,重复计算Mh;当Mh收敛到预定范围内时,视为收敛,Mh收敛后的圆心为所述簇的新的质心。结合第一方面,本专利技术实施例还提供了第一方面的第四种可能的实施方式,其中,根据得到的所有簇和质心,计算簇内的向量数量与所述样本数据的向量总数的数据比例和噪声数据比,包括:根据得到的所有簇和质心,计算每个簇内的向量数量与所述实际样本数据的向量总数的数据比例qn;以簇内向量距所述簇的质心的最大欧氏距离为半径,采用公式r=1-∑qn计算噪声数据比;其中,r为噪声数据比,qn为数据比例。结合第一方面,本专利技术实施例还提供了第一方面的第五种可能的实施方式,其中,根据所述仿真模板生成所述实际样本数据的实验仿真数据,包括:确定待生成的实验仿真数据的总数;将所述实际样本数据的每个簇内的数据比例作为每个簇应生成的数据比例,以簇内的质心为圆心,随机生成与所述总数对应的新向量,生成的新向量到所述质心的欧氏距离小于簇内原有向量距质心的最大欧氏距离;根据每个簇的噪声数据比随机生成所述总数对应的噪声向量;将实际样本数据及生成的新向量和噪声向量作为实验仿真数据。第二方面,本专利技术实施例还提供了一种数据生成装置,应用于仿真平台中,包括:初始质心确定模块,用于确定实际样本数据的向量总数和向量维度;根据所述向量维度计算所述实际样本数据中的所有向量之间的欧氏距离,将欧氏距离最大的两个向量作为所述实际样本数据的初始质心;簇生成模块,用于对于所述实际样本数据中的每个向量依次进行下述处理:计算当前向量与所述实际样本数据的当前各个质心的欧氏距离,根据三角形法则和所述欧氏距离判断所述当前向量是否存在所归属的簇;如果是,将所述当前向量添加至所归属的簇,并根据所述簇内的所有向量计算所述簇的新的质心;如果否,将所述当前向量作为所述实际样本数据的新的质心;当所述实际样本数据中的每个向量均完成上述处理时,获取每个簇中向量的个数,去掉向量个数小于预设值的簇;模板生成模块,用于根据得到的所有簇和质心,计算簇内的向量数量与所述实际样本数据的向量总数的数据比例和噪声数据比;将所述实际样本数据的质心、每个簇的数据比例及噪声数据比,作为仿真模板;仿真数据生成模块,用于根据所述仿真模板生成所述实际样本数据的实验仿真数据。结合第二方面,本专利技术实施例还提供了第二方面的第一种可能的实施方式,其中,所述初始质心确定模块包括:欧氏距离计算单元,用于根据公式计算两个向量之间的欧氏距离;其中,a、b为向量,m为向量维度,ai为向量a的第i维的值、bi为向量b的第i维的值。结合第二方面,本本文档来自技高网
...
数据生成方法和装置

【技术保护点】
一种数据生成方法,应用于仿真平台中,其特征在于,包括:确定实际样本数据的向量总数和向量维度;根据所述向量维度计算所述实际样本数据中的所有向量之间的欧氏距离,将欧氏距离最大的两个向量作为所述实际样本数据的初始质心;对于所述实际样本数据中的每个向量依次进行下述处理:计算当前向量与所述实际样本数据的当前各个质心的欧氏距离,根据三角形法则和所述欧氏距离判断所述当前向量是否存在所归属的簇;如果是,将所述当前向量添加至所归属的簇,并根据所述簇内的所有向量计算所述簇的新的质心;如果否,将所述当前向量作为所述实际样本数据的新的质心;当所述实际样本数据中的每个向量均完成上述处理时,获取每个簇中向量的个数,去掉向量个数小于预设值的簇;根据得到的所有簇和质心,计算簇内的向量数量与所述实际样本数据的向量总数的数据比例和噪声数据比;将所述实际样本数据的质心、每个簇的数据比例及噪声数据比,作为仿真模板;根据所述仿真模板生成所述实际样本数据的实验仿真数据。

【技术特征摘要】
1.一种数据生成方法,应用于仿真平台中,其特征在于,包括:确定实际样本数据的向量总数和向量维度;根据所述向量维度计算所述实际样本数据中的所有向量之间的欧氏距离,将欧氏距离最大的两个向量作为所述实际样本数据的初始质心;对于所述实际样本数据中的每个向量依次进行下述处理:计算当前向量与所述实际样本数据的当前各个质心的欧氏距离,根据三角形法则和所述欧氏距离判断所述当前向量是否存在所归属的簇;如果是,将所述当前向量添加至所归属的簇,并根据所述簇内的所有向量计算所述簇的新的质心;如果否,将所述当前向量作为所述实际样本数据的新的质心;当所述实际样本数据中的每个向量均完成上述处理时,获取每个簇中向量的个数,去掉向量个数小于预设值的簇;根据得到的所有簇和质心,计算簇内的向量数量与所述实际样本数据的向量总数的数据比例和噪声数据比;将所述实际样本数据的质心、每个簇的数据比例及噪声数据比,作为仿真模板;根据所述仿真模板生成所述实际样本数据的实验仿真数据。2.根据权利要求1所述的数据生成方法,其特征在于,根据所述向量维度计算所述实际样本数据中的所有向量之间的欧氏距离,包括:采用公式计算两个向量之间的欧氏距离;其中,a、b为向量,m为向量维度,ai为向量a的第i维的值、bi为向量b的第i维的值。3.根据权利要求1所述的数据生成方法,其特征在于,根据三角形法则和所述欧氏距离判断所述当前向量是否存在所归属的簇,包括:找到与所述当前向量欧氏距离最小的两个质心;若公式Dist(a,K1)+Dist(a,K2)>Dist(K1,K2)不成立,则所述当前向量存在所归属的簇,所述当前向量所归属的簇为与所述当前向量欧氏距离最小的质心所在的簇;若公式Dist(a,K1)+Dist(a,K2)>Dist(K1,K2)成立,则所述当前向量不存在所归属的簇;式中,a为所述当前向量,K1、K2为与所述当前向量a欧氏距离最小的两个质心。4.根据权利要求1所述的数据生成方法,其特征在于,根据所述簇内的所有向量计算所述簇的新的质心,包括:以所述簇的当前质心作为圆心,簇内与所述圆心欧氏距离最大的向量到圆心的距离作为半径,建立一个高维球;计算所述高维球内所有的向量与圆心之间的距离向量,采用公式将所有距离向量全部相加,得到概率密度向量;其中,Mh为概率密度向量,x为当前质心,xi为高维球内的向量,Sk为高维球内所有向量的集合,K为高维球内的向量数量;以概率密度向量的终点为圆心,再建立一个高维球,重复计算Mh;当Mh收敛到预定范围内时,视为收敛,Mh收敛后的圆心为所述簇的新的质心。5.根据权利要求1所述的数据生成方法,其特征在于,根据得到的所有簇和质心,计算簇内的向量数量与所述样本数据的向量总数的数据比例和噪声数据比,包括:根据得到的所有簇和质心,计算每个簇内的向量数量与所述实际样本数据的向量总数的数据比例qn;以簇内向量距所述...

【专利技术属性】
技术研发人员:张霖赵淳任磊
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1