【技术实现步骤摘要】
非参数Waston混合模型的基因表达数据聚类方法、装置及设备
本专利技术涉及数据挖掘领域,尤其涉及一种非参数Waston混合模型的基因表达数据聚类方法、装置及设备。
技术介绍
近年来随着现代生物技术的不断发展,特别是基因组计划的实施,人们不断获取了大量的基因表达数据。然而,在所获得的大量的基因序列数据中,人们只知道很少一部分基因的功能,而大部分基因的功能还是未知的。所以人们需要通过聚类分析技术将具有相似功能的基因序列聚在同一类中。由于同一类中的基因序列具有相似的功能,这样人们就可以利用同一类中已知功能的基因推测同一类中未知功能基因的功能。Watson分布适用于描述方向数据中出现的轴向数据(axialdata),即单位向量相同的数据。Watson混合模型在对含有轴对称性的数据(如L2归一化后的基因表达数据)进行聚类分析时获得的性能明显好于其它常见的混合模型(如高斯混合模型)。现有技术一中,WentaoFan等提出了一种基于狄利克雷过程(DirichletProcess,DP)的Watson混合模型的聚类 ...
【技术保护点】
1.一种非参数Watson混合模型的基因表达数据聚类方法,其特征在于,包括:/nS101,获取待聚类的基因数据集;其中,所述基因数据集包括N条基因表达数据向量;/nS102,使用非参数Watson混合模型对基因表达数据向量进行建模;/nS103,通过变分贝叶斯推断算法估算所述非参数Watson混合模型的模型参数;/nS104,根据估算的所述模型参数,判断所述非参数Watson混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;/nS105,根据指示因子的后验概率判断每条基因表达数据向量的所属类别,从而根据所属类别对所述基因表达数据向量进行聚类。/n
【技术特征摘要】
1.一种非参数Watson混合模型的基因表达数据聚类方法,其特征在于,包括:
S101,获取待聚类的基因数据集;其中,所述基因数据集包括N条基因表达数据向量;
S102,使用非参数Watson混合模型对基因表达数据向量进行建模;
S103,通过变分贝叶斯推断算法估算所述非参数Watson混合模型的模型参数;
S104,根据估算的所述模型参数,判断所述非参数Watson混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;
S105,根据指示因子的后验概率判断每条基因表达数据向量的所属类别,从而根据所属类别对所述基因表达数据向量进行聚类。
2.根据权利要求1所述的非参数Watson混合模型的基因表达数据聚类方法,其特征在于,所述使用非参数Watson混合模型对基因表达数据向量进行建模,具体包括:
对于服从Watson概率分布的D维向量定义其概率密度函数为:
其中,为含有N条基因表达数据向量的数据集,为位置参数并满足条件||·||为L2范数的计算;γ为刻度参数并满足条件γ>0,Γ(·)为Gamma函数,M(·)为Kummer函数;
对服从非参数Watson混合模型的每条基因表达数据向量都服从非参数Watson混合模型,其概率密度函数表达式如下:
其中,该非参数Watson混合模型共由无穷多个混合组件组成,每个混合组件对应一个Watson概率分布是第k个混合组件的参数,而πk>0为相应的“混合系数”,并满足条件
为每条基因表达数据向量指派一个二元隐变量做为指示因子:当Znk=1时,表明基因表达数据向量属于第k个类别;否则,Znk=0;其中隐变量的概率分布为
给非参数Watson混合模型的参数和指派先验概率分布;其中,采用Watson-Gamma分布作为参数的联合先验分布:
其中,pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数Waston混合模型的全概率表达式:
3.根据权利要求2所述的非参数Watson混合模型的基因表达数据聚类方法,其特征在于,
所述非参数Watson混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
服从Beta分布,表达形式如下:
其中pb(·)为Beta分布,ζ为Pitman-Yor过程模型中的折扣参数并满足条件0≤ζ≤1,ξ为密度参数满足条件ξ>-ζ。
4.根据权利要求3所述的非参数Watson混合模型的基因表达数据聚类方法,其特征在于,
所述通过变分贝叶斯推断算法估算所述非参数Watson混合模型的模型参数,以及
根据估算的所述模型参数,判断所述非参数Watson混合模型是否收敛;
具体包括:
初始化模型参数;其中,包括初始化截断层数K=15;初始化超参数0<ak<1,0<bk<1,βk=1,ζk=0.5,ξk=0.5;使用K-Means算法初始化rnk;初始化
利用当前的模型参数更新变分后验以及期望值;
根据更新的期望值获取更新后的
获得当前迭代所产生的变分下界;
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数Waston混合模型是否收敛。
5.根据权利要求4所述的非参数Watson混合模型的基因表达数据聚类方法,其特征在于,利用当前的模型参数更新变分后验以及期望值具体为:
定义变分下界为:
L(q)=...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。