基于对抗自动编码器的单细胞RNA测序聚类方法技术

技术编号:25954765 阅读:38 留言:0更新日期:2020-10-17 03:47
本说明书一个或多个实施例提供基于对抗自动编码器的单细胞RNA测序聚类方法,综合了特定生物噪声建模,变异推断和深度聚类建模的优势。我们的模型约束了数据结构,并通过AAE模块进行聚类分析。在三个真实的scRNA‑seq数据集上进行的实验表明,与最新技术在聚类准确度,标准化互信息和调整兰德系数上相比,本方法的聚类性能都要好得多。

【技术实现步骤摘要】
基于对抗自动编码器的单细胞RNA测序聚类方法
本说明书一个或多个实施例涉及RNA测序
,尤其涉及一种基于对抗自动编码器的单细胞RNA测序聚类方法。
技术介绍
单细胞RNA测序(scRNA-seq)技术的进步使其能通过提供比常用批量RNA测序更高的分辨率的转录组个体细胞差异解决方案,彻底改变了转录组学研究。该技术使研究人员能够系统地研究细胞异质性,细胞发育轨迹以及跨大量细胞的肿瘤亚群的分类,而无监督聚类是分析scRNA-seq以实现上述任务的重要步骤。只有在聚类后,才能识别细胞类型,之后研究人员才能进一步描绘细胞功能状态并推断潜在的细胞动力学。尽管聚类是传统的机器学习研究的领域之一,并且已经有一些代表性的方法,例如k均值和谱聚类等,但是由于scRNA-seq原始数据中的基因表达值的缺失,对这种数据的聚类分析仍然是一个挑战。这种数据缺失指的是存在一些错误的零计数,这可能是由于低测序深度和其他技术中的噪音或技术水平限制从而导致基因计数矩阵中没有记录的数据。如图1所示,不同的热力图颜色表示不同的基因表达水平(基因计数矩阵中的值)。显然,细胞中的大多数基因表达水平非常低,只有少数基因表达超过0。因此,这种缺失使scRNA-seq数据非常稀疏,让传统的聚类方法无法很好地处理该数据。为了缓解这个问题,当前已经提出了几种针对scRNA-seq数据的特定聚类算法,包括SNN-Clip,SIMLR和MPSSC。但是,它们在大型数据集上的计算成本很高,并且聚类性能仍然较差。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于对抗自动编码器的单细胞RNA测序聚类方法,以解决聚类性能较差的问题。基于上述目的,本说明书一个或多个实施例提供了一种基于对抗自动编码器的单细胞RNA测序聚类方法,包括以下步骤:利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。优选地,利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建,得到无噪音数据包括,通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数:ZINB(X|π,μ,θ)=πδ0(X)+(1-π)NB(X|μ,θ)其中μ表示负二项式分布的均值,θ表示离散度,π表示数据缺失概率的附加系数,ZINB表示零膨胀负二项式分布损失函数;将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建,得到无噪音数据。优选地,利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括:在自动编码器的中间隐藏层顶部添加一个判别器,将自动编码器修改为对抗自编码器;将编码器函数和解码器函数分别定义为和其中Z表示隐藏层的特征,权重WE和WD分别是编码器和解码器中的待学习参数;将自动编码器中间隐藏层的潜在特征和来自先验分布的一组相同维度大小的真实样本输入判别器,利用二进制交叉熵损失来训练和更新参数,其中Ld代表判别器的损失函数:将自动编码器作为生成器进行训练,以混淆判别器,并让判别器判断编码器生成的输入样本为真实样本;其中Lg代表判别器的损失函数,zi表示真实样本,D表示判别器,Si表示自动编码器中间隐藏层的潜在特征;优选地,在利用二进制交叉熵损失来训练和更新参数之前,方法还包括:将零均值高斯随机噪声添加到编码器的每一层,使模型更健壮。优选地,使用负二项分布特定损失函数作为重建损失函数,并使用IDEC进行聚类,计算聚类损失包括:将解码器的最后一层替换为三个独立的全连接层,且三个独立的全连接层的维度与输入数据相同,解码器的架构为:De=GWD(H)Φ=sigmoid(WπDe)其中,H表示瓶颈层的输出,WM,Wπ和Wθ分别代表最后三个全连接层中的待学习参数。尺度因子sf是一个独立的生物学变量,由原始数据的库大小和细胞中位数计算得出;ZINB分布的重建损失函数是ZINB分布的负对数变换Lr=-log(ZINB(X|π,μ,θ))在辅助目标分布P和样本特征中软聚类标签的分布Q之间的KL散度计算得到聚类损失,优选地,本方法还包括:联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配,模型的目标函数定义为L1=Lr+Lg相对于聚类中心μj和隐藏层特征样本zi的Lc的梯度计算如下在聚类过程中,聚类中心μj通过以下方式更新从上面所述可以看出,本说明书一个或多个实施例提供的基于对抗自动编码器的单细胞RNA测序聚类方法,综合了特定生物噪声建模,变异推断和深度聚类建模的优势。我们的模型约束了数据结构,并通过AAE模块进行聚类分析。在三个真实的scRNA-seq数据集上进行的实验表明,与最新技术在聚类准确度,标准化互信息和调整兰德系数三个指标上相比,本方法的聚类性能都要好得多。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为
技术介绍
中的scRNA-seq聚类任务示意图;图2为本说明书一个或多个实施例的基于对抗自动编码器的单细胞RNA测序聚类方法流程示意图;图3为本说明书一个或多个实施例的AAE-SC模型结构示意图;图4为本说明书一个或多个实施例的AAE-SC模型聚类效果图;图5为本说明书一个或多个实施例的scdeepCluster模型聚类效果图;图6为本说明书一个或多个实施例的DCA模型聚类效果图;图7为本说明书一个或多个实施例的network-128超参数选择实验结果图;图8为本说明书一个或多个实施例的network-256超参数选择实验结果图;图9为本说明书一个或多个实施例的network-64超参数选择实验结果图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明本文档来自技高网
...

【技术保护点】
1.一种基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,包括:/n利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;/n利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;/n使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;/n联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。/n

【技术特征摘要】
1.一种基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,包括:
利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;
利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;
使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;
联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。


2.根据权利要求1所述的基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,所述利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建,得到无噪音数据包括,
通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数:
ZINB(X|π,μ,θ)=πδ0(X)+(1-π)NB(X|μ,θ)
其中μ表示负二项式分布的均值,θ表示离散度,π表示数据缺失概率的附加系数,ZINB表示零膨胀负二项式分布损失函数;
将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建,得到无噪音数据。


3.根据权利要求1所述的基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,所述利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括:
在自动编码器的中间隐藏层顶部添加一个判别器,将自动编码器修改为对抗自编码器;
将编码器函数和解码器函数分别定义为和其中Z表示隐藏层的特征,权重WE和WD分别是编码器和解码器中的待学习参数;
将自动编码器中间隐藏层的潜在特征和来自先验分布的一组相同维度大小的真实样本输入判别器,利用二进制交叉熵损失来训练和更新参数,其中Ld代表判别器的损失函...

【专利技术属性】
技术研发人员:郭延明武与伦肖延东老松杨
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1