当前位置: 首页 > 专利查询>纪震专利>正文

一种基因表达数据的聚类分析方法及终端设备技术

技术编号:22058782 阅读:26 留言:0更新日期:2019-09-07 16:38
本发明专利技术公开一种基因表达数据的聚类分析方法及终端设备,所述方法包括步骤:确定基因表达数据的编码方案,获取基因表达数据和构成基因聚类中心矩阵以及聚类隶属度矩阵;初始化智能单粒子的位置和速度矢量,并且进行分段,生成相应子矢量,设置迭代计算过程中的相关参数;根据学习智能策略,不断迭代计算,更新智能单粒子的位置矢量;由智能单粒子的最终位置子矢量重构出聚类中心矩阵,得到最优的基因聚类中心。本发明专利技术提供的聚类分析方法与传统方法相比在计算复杂度上至少降低一个数量级,大幅度地降低了计算时间,对于数据规模呈现爆炸性增加的髙通量基因数据处理具有重要意义。

A Clustering Analysis Method and Terminal Equipment for Gene Expression Data

【技术实现步骤摘要】
一种基因表达数据的聚类分析方法及终端设备
本专利技术涉及基因数据分析领域,尤其涉及一种基因表达数据的聚类分析方法及终端设备。
技术介绍
现有技术研究数以万计的基因在不同生理状态下的表达状况时,必须借助基因芯片技术,可以在一次芯片实验中同时测量成千上万个基因的表达,这是基因表达数据分析的最大优点-高通量性。一次基因芯片实验所获得的基因表达数据包括成千上万个基因在各种实验条件下(如不同的组织、不同的生长阶段、不同的健康状况等)所得到的数据构成的矩阵,由于基因数量大和生物信息复杂,聚类分析自然成为处理基因表达数据的重要手段。通过聚类,将具有相同表达模式的基因归为一类,挖掘相似的生物功能、相似的细胞起源或相似的调节作用,对深入了解基金功能和临床医学诊断治疗具有重要的现实意义。传统聚类算法已用于基因表达数据分析,如层次聚类(hierachicalclustering)、K-均值聚类(K-meansclustering)、主成分分析(principalcomponentanalysis)和自组织映射(self-organizingmaps,SOMs)等,但面对高通量的基因表达数据,这些算法均表现出计算时间太长和聚类结果不稳的缺点。新的聚类方法普遍开始引入计算智能算法,特别是基于群体智能的粒子群(ParticleSwarmOptimization,PSO和遗传算法(GeneticAlgorithm,GA),对一些具有代表性的基因表达数据拥有良好的聚类效果,但同时要面对优化搜索速度和精度之间的矛盾,特别是针对集成度越高的基因芯片所产生的更大海量数据,在没有超级计算能力的支持下,运算时间太长又一次成为这些基于群体智能算法的聚类算法的瓶颈。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种基因表达数据的聚类分析方法及终端设备,旨在解决现有技术在对高通量的基因表达数据进行聚类分析时,耗时长且聚类效果较差的问题。本专利技术的技术方案如下:一种基因表达数据的聚类分析方法,其中,包括步骤:确定基因表达数据的编码方案,获取基因表达数据和构成基因聚类中心矩阵以及聚类隶属度矩阵;初始化智能单粒子的位置和速度矢量,并且进行分段,生成相应子矢量,设置迭代计算过程中的相关参数;根据学习智能策略,不断迭代计算,更新智能单粒子的位置矢量;由智能单粒子的最终位置子矢量重构出聚类中心矩阵,得到最优的基因聚类中心。所述基因表达数据的聚类分析方法,其中,所述获取基因表达数据和构成基因聚类中心矩阵以及聚类隶属度矩阵的步骤包括:令X为所获取的M个L维基因表达矩阵,x1∈RL,RL是L维的欧几里得空间,其中,令Y是X的一个聚类中心,构成基因聚类中心矩阵其中,令x和y的距离值d(x,y)最小,则认为xi属于第j类,记作其中称为聚类隶属度矩阵,标记着基因表达数据的聚类结果,大小为M×N。所述基因表达数据的聚类分析方法,其中,所述初始化智能单粒子的位置和速度矢量,并且进行分段,生成相应子矢量,设置迭代计算过程中的相关参数的步骤包括:初始化智能单粒子的位置矢量Z和飞行速度矢量V,维数均是1×D,其中D=N×L,Z和V的每一维数据均随机产生,取值范围为对位置矢量Z分段,把D维空间分成S部分,即把整个位置矢量分成S个位置子矢量与其对应的速度子矢量为初始化迭代计数器k,即令k=0。所述基因表达数据的聚类分析方法,其特征在于,根据基因表达数据的不同特征态调整分段数S。所述基因表达数据的聚类分析方法,其中,所述根据学习智能策略,不断迭代计算,更新智能单粒子的位置矢量的步骤包括:迭代到第k次吋,基因聚类中心矩阵记为Y(k),由Y(k)生成位置矢量Z(k)=G(Y(k)),分段后的位置子矢量依次从到进行循环更新,按照以下的智能学习策略对和对应的迭代更新F次:其中,其中,a为多样性因子,r为随机矢量,h为下降因子,b为加速度因子,c为收缩因子,函数f(·)用于评估聚类中心的适应值;通过聚类屮心矩阵重构算子U(·),由z(k)重构得到对应的Y(k),即Y(k)=U(z(k)),计算所述基因表达数据的聚类分析方法,其特征在于,所述a的取值范围为[0.15,1.5]。所述基因表达数据的聚类分析方法,其中,还包括步骤:计算类内紧致性其中Nj表示第j类基因表示数据的个数;计算类间分离度(i,j=1,2,Λ,N),其中Ni和Nj分别表示第i和第j类基因表达数据的个数;计算聚类性能若-D(k-1)/D(k-1)≤ε,则表示聚类性能优化完成,其中ε为常数;若(D(k)-D(k-1)/D(k-1)>ε,则表示聚类性能优化未完成,继续根据学习智能策略进行迭代计算,直至-D(k-1))/D(k-1)≤ε。所述基因表达数据的聚类分析方法,其中,所述ε取值0.001。一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本专利技术所述基因表达数据的聚类分析方法中的步骤。一种终端设备,其中,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述通信总线实现处理器和存储器之间的连接通信;所述处理器执行所述计算机可读程序时实现本专利技术所述基因表达数据的聚类分析方法中的步骤。有益效果:与传统基于群粒子优化基因表达数据的智能聚类方法相比,本专利技术提供的基于智能单粒子的基因表达数据的聚类分析方法在计算复杂度上至少降低一个数量级,大幅度地降低了计算时间,对于数据规模呈现爆炸性增加的髙通量基因数据处理具有重要意义;同时智能单粒子引入了由多样性和学习两部分构成的学习策略,能够有效兼顾寻找全局最优的速度和精度,使基因表达数据的聚类结果最优。附图说明图1为本专利技术一种基因表达数据的聚类分析方法较佳实施例的流程图。图2为本专利技术提供的一种终端设备的结构原理图。具体实施方式本专利技术提供一种基因表达数据的聚类分析方法及终端设备,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。请参阅图1,图1为本专利技术提供的一种基因表达数据的聚类分析方本文档来自技高网
...

【技术保护点】
1.一种基因表达数据的聚类分析方法,其特征在于,包括步骤:确定基因表达数据的编码方案,获取基因表达数据和构成基因聚类中心矩阵以及聚类隶属度矩阵;初始化智能单粒子的位置和速度矢量,并且进行分段,生成相应子矢量,设置迭代计算过程中的相关参数;根据学习智能策略,不断迭代计算,更新智能单粒子的位置矢量;由智能单粒子的最终位置子矢量重构出聚类中心矩阵,得到最优的基因聚类中心。

【技术特征摘要】
1.一种基因表达数据的聚类分析方法,其特征在于,包括步骤:确定基因表达数据的编码方案,获取基因表达数据和构成基因聚类中心矩阵以及聚类隶属度矩阵;初始化智能单粒子的位置和速度矢量,并且进行分段,生成相应子矢量,设置迭代计算过程中的相关参数;根据学习智能策略,不断迭代计算,更新智能单粒子的位置矢量;由智能单粒子的最终位置子矢量重构出聚类中心矩阵,得到最优的基因聚类中心。2.根据权利要求1所述基因表达数据的聚类分析方法,其特征在于,所述获取基因表达数据和构成基因聚类中心矩阵以及聚类隶属度矩阵的步骤包括:令Ⅹ为所获取的M个L维基因表达矩阵,x1∈RL,RL是L维的欧几里得空间,其中,令Y是Ⅹ的一个聚类中心,构成基因聚类中心矩阵其中,令x和y的距离值d(x,y)最小,则认为xi属于第j类,记作фij=1,其中ф称为聚类隶属度矩阵,标记着基因表达数据的聚类结果,大小为M×N。3.根据权利要求1所述基因表达数据的聚类分析方法,其特征在于,所述初始化智能单粒子的位置和速度矢量,并且进行分段,生成相应子矢量,设置迭代计算过程中的相关参数的步骤包括:初始化智能单粒子的位置矢量Z和飞行速度矢量V,维数均是1×D,其中D=N×L,Z和V的每一维数据均随机产生,取值范围为对位置矢量Z分段,把D维空间分成S部分,即把整个位置矢量分成S个位置子矢量与其对应的速度子矢量为初始化迭代计数器k,即令k=0。4.根据权利要求3所述基因表达数据的聚类分析方法,其特征在于,根据基因表达数据的不同特征态调整分段数S。5.根据权利要求1所述基因表达数据的聚类分析方法,其特征在于,所述根据学习智能策略,不断迭代计算,更新智能单粒子的位置矢量的步骤包括:迭代到第k次时,基因聚类中...

【专利技术属性】
技术研发人员:纪震
申请(专利权)人:纪震
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1