【技术实现步骤摘要】
基于对抗自动编码器的单细胞RNA测序聚类方法
本说明书一个或多个实施例涉及RNA测序
,尤其涉及一种基于对抗自动编码器的单细胞RNA测序聚类方法。
技术介绍
单细胞RNA测序(scRNA-seq)技术的进步使其能通过提供比常用批量RNA测序更高的分辨率的转录组个体细胞差异解决方案,彻底改变了转录组学研究。该技术使研究人员能够系统地研究细胞异质性,细胞发育轨迹以及跨大量细胞的肿瘤亚群的分类,而无监督聚类是分析scRNA-seq以实现上述任务的重要步骤。只有在聚类后,才能识别细胞类型,之后研究人员才能进一步描绘细胞功能状态并推断潜在的细胞动力学。尽管聚类是传统的机器学习研究的领域之一,并且已经有一些代表性的方法,例如k均值和谱聚类等,但是由于scRNA-seq原始数据中的基因表达值的缺失,对这种数据的聚类分析仍然是一个挑战。这种数据缺失指的是存在一些错误的零计数,这可能是由于低测序深度和其他技术中的噪音或技术水平限制从而导致基因计数矩阵中没有记录的数据。如图1所示,不同的热力图颜色表示不同的基因表达水平(基因计数矩阵中的值)。显然,细胞中的大多数基因表达水平非常低,只有少数基因表达超过0。因此,这种缺失使scRNA-seq数据非常稀疏,让传统的聚类方法无法很好地处理该数据。为了缓解这个问题,当前已经提出了几种针对scRNA-seq数据的特定聚类算法,包括SNN-Clip,SIMLR和MPSSC。但是,它们在大型数据集上的计算成本很高,并且聚类性能仍然较差。
技术实现思路
有鉴于此,本说明 ...
【技术保护点】
1.一种基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,包括:/n利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;/n利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;/n使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;/n联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。/n
【技术特征摘要】
1.一种基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,包括:
利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;
利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;
使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;
联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。
2.根据权利要求1所述的基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,所述利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建,得到无噪音数据包括,
通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数:
ZINB(X|π,μ,θ)=πδ0(X)+(1-π)NB(X|μ,θ)
其中μ表示负二项式分布的均值,θ表示离散度,π表示数据缺失概率的附加系数,ZINB表示零膨胀负二项式分布损失函数;
将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建,得到无噪音数据。
3.根据权利要求1所述的基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,所述利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括:
在自动编码器的中间隐藏层顶部添加一个判别器,将自动编码器修改为对抗自编码器;
将编码器函数和解码器函数分别定义为和其中Z表示隐藏层的特征,权重WE和WD分别是编码器和解码器中的待学习参数;
将自动编码器中间隐藏层的潜在特征和来自先验分布的一组相同维度大小的真实样本输入判别器,利用二进制交叉熵损失来训练和更新参数,其中Ld代表判别器的损失函...
【专利技术属性】
技术研发人员:郭延明,武与伦,肖延东,老松杨,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。