【技术实现步骤摘要】
一种基于深度自动编码器的基因表达数据聚类方法
[0001]本专利技术属于基因表达数据分析领域,具体涉及一种基于深度自动编码器的基因表达数据聚类方法。
技术介绍
[0002]随着基因芯片检测技术日趋成熟,产生了大量的基因表达数据,人们可从公共数据集中获取基因表达数据。利用数据挖掘方法挖掘基因表达数据重要信息,可从分子层面探讨疾病的机理和生物标志物。聚类分析是数据挖掘的重要技术之一,在基因表达数据研究中具有很重要的作用。基因表达数据的聚类分析研究可分为3类:基因聚类、样本聚类和双向聚类。其中,基因聚类以基因为对象,以样本表达值为特征,能够用于判断差异基因在不同情况下的表达模式,将表达模式相同或相近的基因聚集,这些同类基因可能具有相似的功能,共同参与同一代谢过程或存在于同一细胞通路中。
[0003]基因聚类可将表达模式相近的基因聚在一起,以发现未知基因功能以及基因之间的调控关系。现有技术中有基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法以及基于图的聚类算法等经典的聚类算法,这些算法都存在着各自的优缺点。目前,应 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,包括:S1:获取基因表达数据;S2:对基因表达数据进行预处理,得到mRNA数据;S3:将mRNA数据输入到训练好的深度自动编码器中,得到降维后的mRNA数据;S4:采用mclust包确定降维后的mRNA数据的聚类簇数;S5:根据聚类簇数,采用k
‑
means聚类算法对降维后的mRNA数据进行聚类,得到聚类结果。2.根据权利要求1所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,对获取的基因表达数据进行预处理包括:从基因表达数据中提取mRNA数据;对mRNA数据进行基因ID转换、缺失值处理和删除重复基因,得到得到初步处理好的mRNA数据;对初步处理好的mRNA数据进行剔除过低表达量基因处理;使用方差稳定变换对剔除过低表达量基因后的数据进行标准化处理,得到预处理好的mRNA数据。3.根据权利要求1所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,对深度自动编码器进行训练包括:深度自动编码器包括编码器和解码器;S31:采用编码器对输入mRNA数据进行特征学习,得到降维后的mRNA数据;S32:采用解码器对降维后的mRNA数据进行重构,得到重构的mRNA数据;S33:根据重构的mRNA数据和原mRNA数据计算损失函数,返回步骤S31,当损失函数最小时,得到训练好的深度自动编码器。4.根据权利要求3所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,深度自动编码器的编码器处理数据的公式为:y=f
θ
(x)=f
k
(f
k
‑1(...f1(x)))=σ
k
(σ
k
‑1(...σ1(wx+b)))其中,x表示输入向量,y表示降维后的mRNA数据,f
θ
表示编码器,f
i
表示深度网络中第i层的映射函数,σ
k
表示第k层的激活函数,w表示权重矩阵值,b表示偏移矩阵。5.根据权利要求3所述的一种基于深度自动编码器的基因表达数据聚类方法,其特征在于,深度自动编码器的解码器处理数据的公式为:z=g
θ
′
(y)=g
k
(g
k
‑1(...g1(y)))=σ
k
(σ
k
‑...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。