当前位置: 首页 > 专利查询>武汉大学专利>正文

单细胞RNA测序数据降维方法、设备及可读存储介质技术

技术编号:33960081 阅读:26 留言:0更新日期:2022-06-30 00:21
本发明专利技术提供一种单细胞RNA测序数据降维方法、设备及可读存储介质。该方法包括:对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X;根据两两单细胞间的马氏距离,构造连接矩阵A;基于A构造图自编码器模型;将X输入图自编码器模型,得到重构特征矩阵Y、重构连接矩阵以及提取图自编码器模型中维度最低的层的隐变量Z;根据X、A、Y、以及Z得到总损失函数;采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。通过本发明专利技术,实现了在庞大、复杂且高维的数据上展开降维任务时保持了细胞之间的结构信息。结构信息。结构信息。

【技术实现步骤摘要】
单细胞RNA测序数据降维方法、设备及可读存储介质


[0001]本专利技术涉及深度学习
,尤其涉及一种单细胞RNA测序数据降维方法、设备及可读存储介质。

技术介绍

[0002]复杂的生物组织和生命体是由形态各异、功能各异的细胞群组成。单细胞RNA测序(scRNA

seq)技术是对每一个细胞的RNA进行测序,得到所有基因在该细胞的表达量。与传统的批量测序不同,它具备分析单个细胞的生物学状态的能力,被广泛应用于肿瘤生物学、胚胎发育学、器官形成等诸多生物学领域。在scRNA

seq数据中,细胞的每一个基因的表达量都可视为该细胞的一个特征,从中挖掘生物信息的关键步骤是将高维且复杂的scRNA

seq数据降维到二维以达到可视化的效果,直观地观察到细胞群体的分布。
[0003]一个scRNA

seq数据一般含有几万甚至几十万个细胞,每个细胞含有几万个基因表达特征,目前的降维方法不能从如此庞大且高维的数据中充分挖掘出关键信息。传统降维方法都有各自的局限性,比如PCA等本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种单细胞RNA测序数据降维方法,其特征在于,所述单细胞RNA测序数据降维方法包括:对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X,N为正整数;计算两两单细胞间的马氏距离;根据两两单细胞间的马氏距离,构造连接矩阵A;基于连接矩阵A构造图自编码器模型;将特征矩阵X输入图自编码器模型;获取图自编码器模型输出的重构特征矩阵Y、重构连接矩阵以及提取图自编码器模型中维度最低的层的隐变量Z;根据特征矩阵X、连接矩阵A、重构特征矩阵Y、重构连接矩阵以及隐变量Z得到总损失函数;采用梯度下降法得到最小化的总损失函数以及训练完成的图自编码器模型;提取训练完成的图自编码器模型中维度最低的层的隐变量Z'作为降维结果。2.如权利要求1所述的单细胞RNA测序数据降维方法,其特征在于,所述对N个单细胞的单细胞测序数据进行特征选取,得到特征矩阵X的步骤包括:从N个单细胞的单细胞测序数据中选取满足预设条件的M个基因为特征,得到特征矩阵X,N为正整数,其中,预设条件为:d
g
>exp[

(m
g

b)]+0.02其中,m
g
={log2X
ig
|X
ig
>0},I是单位1,X
ig
是细胞i的第g个基因表达量,b为通过二分法得到的与M对应的超参数。3.如权利要求1所述的单细胞RNA测序数据降维方法,其特征在于,所述根据两两单细胞间的马氏距离,构造连接矩阵A的步骤包括:以每个单细胞为节点,对于细胞i,选取与细胞i的马氏距离最小的前t个细胞作为细胞i的近邻点进行构图,得到连接图;基于连接图,构造连接矩阵A,其中,与细胞j若为细胞i的近邻点,则连接矩阵A中第i行第j列的元素A
ij
为1,否则为0。4.如权利要求3所述的单细胞RNA测序数据降维方法,其特征在于,图自编码器模型的传播公式为:其中,I
N
是N阶单位矩阵,W
(h

1)
为第(h

1)层可训练参数,ReLU(
...

【专利技术属性】
技术研发人员:张乐飞廖明辉杜博
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1