当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于图神经网络的scRNA-seq数据降维方法技术

技术编号:38130760 阅读:10 留言:0更新日期:2023-07-08 09:38
本发明专利技术涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过深度学习的方法对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。本发明专利技术的方法包括对scRNA

【技术实现步骤摘要】
一种基于图神经网络的scRNA

seq数据降维方法


[0001]本专利技术涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。

技术介绍

[0002]随着近年来单细胞RNA测序(scRNAseq)技术的爆炸式增长,出现了前所未有的单细胞转录分析机会。传统的批量RNA测序方法对数百万个细胞的混合物进行测序。这导致一个基因的基因表达反映了所有细胞中基因表达的平均值,而忽略了细胞之间的异质性。与bulk RNAseq不同,scRNAseq第一步分离细胞,第二步对每个细胞的数千个基因进行测序。根据不同的测序方案,每个基因收集了数以百万计的表达值,从而可以识别新的细胞类型,确定基因调控机制,解决发育过程的细胞动力学问题。
[0003]单细胞RNA测序(scRNA

seq)是研究细胞间变异的理想方法。主成分分析(PCA)和t

分布式随机邻域嵌入(t

SNE)等常规降维技术在scRNA

seq数据上实施,用于可视化和下游分析,显着增加了我们对细胞异质性和发育进度的理解。最近出现的大规模并行scRNA

seq(例如液滴平台)使得能够对复杂生物系统中的数百万个细胞进行测序,这为组织和细胞微环境的解剖、稀有/新细胞类型的鉴定、发育谱系的推断以及细胞对刺激的反应机制的阐明提供了极好的潜力。然而,大规模并行scRNA

seq生成的数据具有高dropout、高噪声、结构复杂等特点,给降维带来了一系列挑战。特别是,保留细胞间复杂的拓扑结构是一个巨大的挑战。
[0004]在过去的几年中,已经开发或引入了许多用于scRNA

seq数据分析的降维方法。最近开发的竞争方法包括DCA、scVI、scDeepCluster、PHATE、SAUCIE、scGNN、ZINB

WaVE和Ivis。其中,深度学习显示出最大的潜力。例如,DCA、scDeepCluster、Ivis和SAUCIE调整了自动编码器以对scRNA

seq数据进行降噪、可视化和聚类。然而,这些基于深度学习的模型只嵌入了不同的细胞特征而忽略了细胞与细胞之间的关系,这限制了它们揭示细胞间复杂拓扑结构的能力,也使它们难以阐明发育轨迹。最近提出的图自动编码器非常有前途,因为它保留了潜在空间中数据之间的长距离关系。
[0005]然而,研究表明,基因调控网络或蛋白质

蛋白质相互作用(PPI)网络中涉及的基因相互作用在不同的生物学背景下具有丰富的信息。此外,之前的研究表明,将scRNA

seq数据与先前的基因相互作用信息联合分析可以导致对数据的有意义的理解。NetNMF

sc是一种专为scRNA

seq分析设计的网络正则化非负矩阵分解,它利用先验基因网络获得更有意义的基因低维表示。相对应的,scRNA

seq数据也包含丰富的信息来推断基因

基因相互作用。
[0006]受上述理解的启发,我们提出了scTPGAE,这是一种基于图神经网络的计算方法,它利用两个图神经网络同时将细胞

细胞关系,基因

基因关系保留到降维结果中,以达到更好的下游分析结果。

技术实现思路

[0007]本专利技术针对以上方法存在的问题与scRNA

seq数据的复杂性,我们提出了一种基于图神经网络的scRNA

seq数据降维方法。本专利技术的方法可以有效的解决现有降维方法存在的重要信息丢失,特征提取不充分等问题,并在降维结果中同时保留了细胞

细胞关系和基因

基因关系,并获得了更好的聚类精度。所叙述方法的步骤包括:
[0008]1.数据预处理
[0009]首先,假设我们有一个原始的scRNA

seq计数矩阵C,它过滤掉了任何细胞中没有计数的基因。C可以表示为P乘N维矩阵,其中P被定义为基因总数,N被定义为细胞总数,C
ij
表示细胞j中基因i的表达值。
[0010]在这项工作中,我们首先对原始scRNA

seq计数数据进行预处理,包括对数转换和z分数归一化。我们有一个归一化输出X,公示如下
[0011][0012]X=zscore(X

)
[0013]其中S
j
是每个细胞j的大小因子。数据预处理的优点是保留数据大小差异的影响,并将离散值转换为连续值,从而为后续建模提供更大的灵活性。
[0014]图神经网络需要的输入除了上述的基因

细胞关系矩阵外,还需要细胞

细胞关系图和基因

基因交互网络。
[0015]其中,细胞

细胞关系图由Scikit

learn Python包中的K最近邻(KNN)算法构建。默认K在本研究中预定义为35,并根据我们实验中的数据集进行调整。生成的邻接矩阵是一个0

1的矩阵,1代表连通,0代表不连通。
[0016]基因

基因交互网络则可以利用现有的数据,我们收集了七种不同的人类基因相互作用网络和一种小鼠基因相互作用网络来评估scTPGAE的性能。最著名的基因相互作用网络之一是STRING数据库,这是一个PPI网络,它从文献和实验等多种资源中收集和整合蛋白质

蛋白质关联信息。HumanNet是一个人类功能基因网络,它通过贝叶斯统计框架整合了多种类型的组学数据。HumanNet包括人类基因网络的层次结构,即人类衍生的PPI、共功能链接、共引用和来自其他物种的互斥。具体来说,我们使用了两个版本的HumanNet,HumanNet

CF和HumanNet

PI,它们分别由协同功能网络和PPI网络组成。FunCoup是全基因组功能关联网络,使用独特的冗余加权贝叶斯积分来组合10种不同类型的功能关联数据。GeneMANIA通过对多重功能基因组数据集进行加权来创建组合基因网络。此外,我们从pgWalk收集了两个功能相似矩阵,它们分别来自KEGG通路和Gene Ontology生物过程。接下来,我们通过过滤掉那些相似度值小于某个阈值(即0.9)的基因对,将这两个相似度矩阵转换为基因网络。这两个网络分别称为pgWalk

kegg和pgWalk

gobp。
[0017]2.构建用于降维的图神经网络
[0018](1)保留细胞

细胞关系的图神经网络G1
[0019]图自动编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的scRNA

seq数据降维方法,其特征在于实施步骤:(1)数据预处理;收集来自不同物种、不同类型、不同细胞数量的scRNA

seq数据集;对收集到的原始的scRNA

seq数据采用对数转换和z分数归一化方法进行预处理,并利用零膨胀负二项分布对输入的数据进行重建,得到无噪音数据;(2)构建用于降维的图神经网络,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架;可同时在降维结果中保留细胞之间的拓补结构和基因之间的拓补结构;(3)利用构建的图神经网络对预处理过的scRNA

seq数据进行降维,利用自动编码器的中间隐藏层学习到隐藏层特征向量,并对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量与所选的先验分布进行匹配;将两个图神经网络中学习到的隐藏层特征向量进行连接,以便于后续的下游分析;(4)应用k

means聚类算法对降维后的数据进行聚类,得到标准化互信息分数和调整兰德指数。2.根据权利要求1所述的一种基于图神经网络的scRNA

seq数据降维方法,其特征在于收集数据并对收集到的单细胞RNA测序数据进行预处理:我们收集了来自不同物种、不同类型、不同细胞数量、真实的五个scRNA

seq数据集,然后使用对数转换和z分数归一化的方法对收集的数据进行了预处理。具体的,我们对以下五个数据集进行了数据预处理的操作。(1)10X PBMC数据集,10X scRNA

seq平台提供,数据采集自一个健康人类;(2)小鼠胚胎干细胞数据集,描述了白血病抑制因子(LIF)退出消除后小鼠胚胎干细胞异质分化的转录组;(3)小鼠膀胱细胞数据集来自小鼠细胞图谱项目GSE108097。从原始计数矩阵中,我们选择了约2700个来自膀胱组织的细胞;(4)蠕虫神经元细胞数据集通过单细胞组合索引RNA测序进行分析,该测序来自L2幼虫期秀丽隐杆线虫;(5)Zeisel数据集包含3005个细胞,这些细胞来自小鼠皮层和海马体GSE60361。3.根据权利要求1所述的一种基于图神经网络的scRNA

seq数据降维方法,其特征在于构建一个图神经网络,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架,具体包括:(1)保留细胞

细胞关系的图神经网络G1图自动编码器是一种用于对图结构数据进行无监督表示学习的人工神经网络。图形自动编码器具有低维瓶颈层,因此可以用作降维模型。假设输入是节点矩阵X和邻接矩阵A的细胞

细胞关系图。在我们的联合图自动编码器中,有一个编码器E用于整个图,两个解码器D
X
和D
A
分别用于节点和边。在实践中,我们首先将输入图编码为潜在变量h=E(X,a),然后将h解码为重构的节点矩阵x
r
=D
X
(h)和重构的邻接矩阵A
r
=D
A
(h)。学习过程的目标是最小化重建损失其中权重是超参数。在我们的实验中,设置为0.6。
我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用...

【专利技术属性】
技术研发人员:王树林孙鸿福
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1