【技术实现步骤摘要】
一种基于图神经网络的scRNA
‑
seq数据降维方法
[0001]本专利技术涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。
技术介绍
[0002]随着近年来单细胞RNA测序(scRNAseq)技术的爆炸式增长,出现了前所未有的单细胞转录分析机会。传统的批量RNA测序方法对数百万个细胞的混合物进行测序。这导致一个基因的基因表达反映了所有细胞中基因表达的平均值,而忽略了细胞之间的异质性。与bulk RNAseq不同,scRNAseq第一步分离细胞,第二步对每个细胞的数千个基因进行测序。根据不同的测序方案,每个基因收集了数以百万计的表达值,从而可以识别新的细胞类型,确定基因调控机制,解决发育过程的细胞动力学问题。
[0003]单细胞RNA测序(scRNA
‑
seq)是研究细胞间变异的理想方法。主成分分析(PCA)和t
‑
分布式随机邻域嵌入(t
‑
SNE)等常规降维技术在scRNA
‑
seq数据上实施,用于可视化和下游分析,显着增加了我们对细胞异质性和发育进度的理解。最近出现的大规模并行scRNA
‑
seq(例如液滴平台)使得能够对复杂生物系统中的数百万个细胞进行测序,这为组织和细胞微环境的解剖、稀有/新细胞类型的鉴定、发育谱系的推断以及细胞对刺激的反应机制的阐明提供了极好的潜力。然而,大规模并行scRN ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的scRNA
‑
seq数据降维方法,其特征在于实施步骤:(1)数据预处理;收集来自不同物种、不同类型、不同细胞数量的scRNA
‑
seq数据集;对收集到的原始的scRNA
‑
seq数据采用对数转换和z分数归一化方法进行预处理,并利用零膨胀负二项分布对输入的数据进行重建,得到无噪音数据;(2)构建用于降维的图神经网络,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架;可同时在降维结果中保留细胞之间的拓补结构和基因之间的拓补结构;(3)利用构建的图神经网络对预处理过的scRNA
‑
seq数据进行降维,利用自动编码器的中间隐藏层学习到隐藏层特征向量,并对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量与所选的先验分布进行匹配;将两个图神经网络中学习到的隐藏层特征向量进行连接,以便于后续的下游分析;(4)应用k
‑
means聚类算法对降维后的数据进行聚类,得到标准化互信息分数和调整兰德指数。2.根据权利要求1所述的一种基于图神经网络的scRNA
‑
seq数据降维方法,其特征在于收集数据并对收集到的单细胞RNA测序数据进行预处理:我们收集了来自不同物种、不同类型、不同细胞数量、真实的五个scRNA
‑
seq数据集,然后使用对数转换和z分数归一化的方法对收集的数据进行了预处理。具体的,我们对以下五个数据集进行了数据预处理的操作。(1)10X PBMC数据集,10X scRNA
‑
seq平台提供,数据采集自一个健康人类;(2)小鼠胚胎干细胞数据集,描述了白血病抑制因子(LIF)退出消除后小鼠胚胎干细胞异质分化的转录组;(3)小鼠膀胱细胞数据集来自小鼠细胞图谱项目GSE108097。从原始计数矩阵中,我们选择了约2700个来自膀胱组织的细胞;(4)蠕虫神经元细胞数据集通过单细胞组合索引RNA测序进行分析,该测序来自L2幼虫期秀丽隐杆线虫;(5)Zeisel数据集包含3005个细胞,这些细胞来自小鼠皮层和海马体GSE60361。3.根据权利要求1所述的一种基于图神经网络的scRNA
‑
seq数据降维方法,其特征在于构建一个图神经网络,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架,具体包括:(1)保留细胞
‑
细胞关系的图神经网络G1图自动编码器是一种用于对图结构数据进行无监督表示学习的人工神经网络。图形自动编码器具有低维瓶颈层,因此可以用作降维模型。假设输入是节点矩阵X和邻接矩阵A的细胞
‑
细胞关系图。在我们的联合图自动编码器中,有一个编码器E用于整个图,两个解码器D
X
和D
A
分别用于节点和边。在实践中,我们首先将输入图编码为潜在变量h=E(X,a),然后将h解码为重构的节点矩阵x
r
=D
X
(h)和重构的邻接矩阵A
r
=D
A
(h)。学习过程的目标是最小化重建损失其中权重是超参数。在我们的实验中,设置为0.6。
我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。