基于数据流聚类的癌症亚型精准发现与演化分析方法技术

技术编号:16475741 阅读:26 留言:0更新日期:2017-10-29 03:36
一种基于数据流聚类的癌症亚型精准发现与演化分析方法,包括以下步骤:(a)基因表达数据流的初始化;(b)基因表达数据流在线实时聚类,将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;(c)基因表达数据流离线精准聚类,将网格视作自带密度信息的虚拟数据点,采用基于密度‑距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;(d)类簇演化迁移分析。本发明专利技术提供一种精度较高的基于数据流聚类的癌症亚型精准发现与演化分析方法。

【技术实现步骤摘要】
基于数据流聚类的癌症亚型精准发现与演化分析方法
本专利技术涉及一种基于数据流聚类的癌症亚型发现与演化分析方法。
技术介绍
癌症亚型的鉴定在揭示疾病发病机理和促进个性化治疗方面起着重要的作用。经过几十年的研究,癌症的临床诊断和肿瘤特异性标志物的鉴定仍然存在不确定性。因此研究高效的生物数据挖掘方法已经成为生物信息学发展的重要方向和迫切需求。聚类分析作为一种先进的数据分析和知识发现技术,已经在许多领域取得了成功应用。在生物信息领域,该技术也已显示出其巨大潜力。尤其是在基因表达数据分析方面,聚类分析已经得到了广泛的应用并成为主要技术手段之一。不管何种聚类算法,首先需要计算样本对象间的相似度,常用的基因表达模式相似度距离计算方法包括以下几种:(a)基于几何距离的相似度计算方法。几何距离可以衡量研究对象在空间上的距离远近关系,空间上相近的物体运用几何距离可以判断为同一类,而空间上较远的物体则判断为不同类。常见的几何距离有马氏距离、欧氏距离、切氏距离等。(b)线性相关系数。常用皮尔森相关系数来衡量基因表达模式的相似性。(c)非线性相关系数。某些在功能上有相关关系的基因虽然在表达上不具有严格的线性相关关系,但在时间点的波动趋势上却是相似的,在这种情况下可以用非线性相关模式来衡量基因间的距离。(d)互信息。线性与非线性相关系数都只能衡量基因间的单调相关关系,而对于那些在整个时间序列上基因间的表达没有单调升降关系的相似性可以用信息熵进行衡量。广泛应用于基因表达数据的经典聚类算法有K均值聚类、层次聚类、基于模型聚类、自组织映射聚类(SMO)、模糊C均值聚类。由于基因组数据结构的复杂性和多组学数据的发展,这些经典聚类算法的应用受到了极大限制。在此基础上发展出针对癌症基因表达数据聚类的新方法,包括子空间聚类、投影聚类、双聚类等多种聚类技术。(a)子空间聚类算法。基于距离的子空间聚类通常根据空间范式距离度量样本对象之间的相似性。其代表算法有CLIQUE算法和ENCLUS算法。CLIQUE算法能够自动发现任意子空间中的聚类结果,对数据集中的对象数和维数具有较好的可伸缩性,但对聚类结果维数的可伸缩性较差;ENCLUS算法使用信息熵作为单元格是否有助于聚类形成的度量,能够发现不同子空间中任意形状的重叠聚类。基于模式的子空间聚类算法有p-Clustering算法和Tri-Clustering算法。p-Clustering算法通过在不同实验条件下的表达模式差异来定义对象间的相似度,但它仅仅考虑了基因模式中垂直平移或成比例的模式,不能有效处理实验噪声;Tri-Clustering算法用于在三维微阵列矩阵中挖掘成比例模式,寻找满足条件的极大Tri-Cluster。(b)投影聚类算法。投影聚类的概念和子空间聚类非常相似。一个投影聚类是一组在相关维形成的子空间中高度相似的对象集合。投影聚类要求从所有可能的样本划分和特征选择中发现一组使某个评估函数优化的聚类结果,这些结果互不相交。DOC和FastDOC是两种基于超立方体的投影聚类算法,在测试足够多的随机中心点时能得到较好的聚类效果,但是巨大的测试次数会降低算法的效率。同时,DOC和FastDOC算法对参数十分敏感。ORCLUS算法选择多个初始中心点形成初始对象集合,随后在迭代过程中合并相似的投影聚类成员,逐步形成最终的k个投影聚类。ORCLUS算法能发现任意形状的类簇,但是对于主成分分析的计算代价很大,在高维上的算法效率低。DPCLUS算法是基于分裂方式的投影聚类算法,涉及大量通过奇异值分解求解协方差矩阵特征值的计算,代价很大,且需要人为指定聚类结果的个数和每个聚类包含的最小维数。(c)双聚类算法。双聚类与子空间聚类和投影聚类有着密切的联系。就每个单独聚类结果来看,双聚类与子空间聚类和投影聚类一样,都由对象子集和属性子集构成,具有局部特性;就聚类结果的相互关系和所用的技术特点来看,双聚类与子空间聚类和投影聚类又存在一定的区别。比较具有代表性的双聚类算法有Biclustering算法、FLOC算法和SAMBA算法。Biclustering算法通过将表达矩阵中每个投影值当做三个独立部分相互作用之和,引入平均平方剩余的概念来度量每一个子矩阵的内部一致性。Yang等人同时提出了一个基于启发式的算法FLOC,用来从给定的表达矩阵中发现满足要求的K个聚类。SAMBA算法是基于统计模型将双聚类问题转化成二分图中最大权重字图的搜索问题,为研究基因表达数据分析中的聚类技术开创了新的思路,局限性在于,限制每个顶点的“度”为一个常数,阻碍了包含较多对象或较高维数的聚类结果生产。
技术实现思路
为了克服已有基因表达数据聚类方式的精度较低的不足,本专利技术提供一种精度较高的基于数据流聚类的癌症亚型精准发现与演化分析方法。本专利技术解决其技术问题所采用的技术方案是:一种基于数据流聚类的癌症亚型精准发现与演化分析方法,包括以下步骤:(a)基因表达数据流的初始化对数据流的维度信息进行分析,并确定相似度距离计算方法;建立基因数据流对象的网格单元,并将数据按窗口投入网格中实现初始化;构建非均匀衰减模型,确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法;(b)基因表达数据流在线实时聚类将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;(c)基因表达数据流离线精准聚类将网格视作自带密度信息的虚拟数据点,采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;(d)类簇演化迁移分析将不同时间节点下的离线聚类结果按时间顺序进行保存,用以分析各个类簇随时间的变化情况,即基因表达数据的演化分析。进一步,所述步骤(d)中,对于样本类簇的演化分析包括两方面的内容:一是对同一个类簇随时间的迁移变化情况进行分析,它反映了某一癌症亚型在一段时间内的自身属性结构变化;二是研究不同类簇之间的关联性随时间发生的变化,它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况。;结合亚型演化的生物学意义,建立一个基于癌症亚型基因表达数据的动态调控时序网络模型,用以进一步分析亚型之间的转化情况和相互联系。所述步骤(a)中,取基因数据流的初始数据流入在线聚类框架,建立首批在线网格,同时确立网格在线衰减模型的过程;网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数。所述步骤(b)中,采用非均匀衰减模型,根据当前时刻流入的数据的分散程度,使用不同的衰减系数λ对流入的数据进行衰减;设数据流在tp时刻流入的数据点落在n个网格内,此时系统存在密度不为0的网格总数为N,则定义该时刻下数据的分散程度为:ω=n/N(4)可得ω∈(0,1],ω的大小可以反映当前时刻流入数据的分布集中程度;设数据流流入网格后,所有网格的密度均值为Dave,现设定参数μ,令:其中,Sm表示所有密集网格的集合,Sp表示所有稀疏网格的集合,μ为阈值;在非均匀衰减模型中,对于任意网格den,该网格从稀疏网格变为密集网格的最小时间为:其中,λhigh为最大衰减系数,Dbd表示用于划分网格是否为高密度网格的网格阈值参数,根据公本文档来自技高网
...
基于数据流聚类的癌症亚型精准发现与演化分析方法

【技术保护点】
一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:包括以下步骤:(a)基因表达数据流的初始化对数据流的维度信息进行分析,并确定相似度距离计算方法;建立基因数据流对象的网格单元,并将数据按窗口投入网格中实现初始化;构建非均匀衰减模型,确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法;(b)基因表达数据流在线实时聚类将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;(c)基因表达数据流离线精准聚类将网格视作自带密度信息的虚拟数据点,采用基于密度‑距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;(d)类簇演化迁移分析将不同时间节点下的离线聚类结果按时间顺序进行保存,用以分析各个类簇随时间的变化情况,即基因表达数据的演化分析。

【技术特征摘要】
1.一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:包括以下步骤:(a)基因表达数据流的初始化对数据流的维度信息进行分析,并确定相似度距离计算方法;建立基因数据流对象的网格单元,并将数据按窗口投入网格中实现初始化;构建非均匀衰减模型,确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法;(b)基因表达数据流在线实时聚类将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;(c)基因表达数据流离线精准聚类将网格视作自带密度信息的虚拟数据点,采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;(d)类簇演化迁移分析将不同时间节点下的离线聚类结果按时间顺序进行保存,用以分析各个类簇随时间的变化情况,即基因表达数据的演化分析。2.如权利要求1所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:所述步骤(d)中,对于样本类簇的演化分析包括两方面的内容:一是对同一个类簇随时间的迁移变化情况进行分析,它反映了某一癌症亚型在一段时间内的自身属性结构变化;二是研究不同类簇之间的关联性随时间发生的变化,它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况。;结合亚型演化的生物学意义,建立一个基于癌症亚型基因表达数据的动态调控时序网络模型,用以进一步分析亚型之间的转化情况和相互联系。3.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:所述步骤(a)中,取基因数据流的初始数据流入在线聚类框架,建立首批在线网格,同时确立网格在线衰减模型的过程;网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数。4...

【专利技术属性】
技术研发人员:陈晋音郑海斌林翔熊晖李南应时彦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1