一种基于拉普拉斯正则化的单细胞制造技术

技术编号:39577447 阅读:11 留言:0更新日期:2023-12-03 19:28
本发明专利技术涉及一种基于拉普拉斯正则化的单细胞

【技术实现步骤摘要】
一种基于拉普拉斯正则化的单细胞RNA

seq数据的插补方法


[0001]本专利技术涉及医学信息
,特别是一种基于拉普拉斯正则化的单细胞
RNA

seq
数据的插补方法


技术介绍

[0002]随着分子生物学技术的不断发展,高通量测序已在多个领域应用


scRNA
测序实验中经常观察到基因在细胞中表达但未被检测到的丢失事件,这种情况被称之为
Dropout。
由此得到的基因

细胞表达矩阵将包含许多由
Dropout
事件引起的假零点,这些错误零点会破坏生物信号,阻碍后续的分析,如细胞聚类和差异表达分析,所以需要解决掉
Dropout
所带来的问题,从而要用插补来完善缺失的值

[0003]迄今的插补方法主要可以分为三大类

第一类是使用概率模型直接模拟稀疏性的插补方法

例如,算法首先通过拟合
Gamma

Normal
混合模型来插补基因的缺失概率,然后再依照相似细胞的基因表达信息来插补细胞的潜在的
Dropout。SAVER
为了解决
scRNA
数据的缺失,它通过贝叶斯方法结合了基因之间相似性信息来插补真正的基因表达

第二种方法通常是调整所有值,方法是平滑或扩散所识别到的相似的表达图谱中的细胞中的原始表达值

例如,
MAGIC
算法首先通过网络扩散的方法来确定细胞间的相似性,其次再对高度相似细胞中的基因表达进行聚集,进而来插补基因表达矩阵

然而,
SAVER

MAGIC
会插补所有基因的表达值,而
ScImpute
能够选择其它相似细胞中不太会受
Dropout
影响的相同基因信息,在不引入新偏差的情况之下插补缺失值

第三种方法首先通过基于低秩矩阵的方法或者深度学习方法识别细胞的潜在空间表示,然后从低秩或估计的潜在空间重构观察到的表达矩阵,重构之后的表达矩阵将不再是稀疏的
。DrImpute
使用
Spearman

Pearon
相关系数计算细胞之间的距离,然后根据距离矩阵在预期的聚类数范围内
(K
,默认是
10

15)
进行细胞聚类

对于距离矩阵
(Spearman

Pearson)

K
的每个组合,使用其平均值来估计输入的基因

细胞矩阵中的零值

总之,为了恢复单细胞
RNA

seq
数据中的缺失数据,仍然迫切的需要一种准确而又稳健的插补方法


技术实现思路

[0004]本专利技术方法的目的在于提供一种基于拉普拉斯正则化的单细胞
RNA

seq
数据的插补方法

该方法能够有效的提高下游实验的聚类效果,并且对于缺失值的插补有着较好的效果

[0005]为实现上述目的,一种基于拉普拉斯正则化的单细胞
RNA

seq
数据的插补方法,包括以下步骤:
[0006]步骤
A
:输入已知的基因表达矩阵
Y

[0007]步骤
B
:利用基因表达矩阵
Y
得到细胞特征矩阵
W
和基因特征矩阵
H
,和细胞相似性矩阵
S
C
和基因相似性矩阵
S
g
,利用细胞特征矩阵
W
和基因特征矩阵
H
可以得到
W
的对角矩阵
D
W

H
的对角矩阵
D
h

[0008]步骤
C
:利用细胞特征矩阵
W
和基因特征矩阵
H
可以得到
W
的对角矩阵
D
W

H
的对角矩阵
D
h

[0009]步骤
D
:利用已知的
W、H、Y
进行非负矩阵分解的计算,得到式子:
[0010][0011]步骤
E
:利用已知的
λ
g

λ
C

λ1、
λ2、D
W
、D
h
、S
C
、S
g
、W、H、Y
再对上式添加了拉普拉斯正则化项,得到式子:
[0012][0013]步骤
F
:对上式的
W
求梯度得:
[0014][0015]根据
KKT(Karush

Kuhn

Tucker)
互补条件得到通过乘法来对上式进行更新,得到
W
的更新公式:
[0016][0017]其中
W0更新之前的矩阵,
W
表示更新之后的矩阵

同理对
H
求梯度得:
[0018][0019]同理:
[0020][0021]其中
H0更新之前的矩阵,
H
表示更新之后的矩阵

矩阵
W

H
基于更新规则进行更新直到收敛,最后得到插补之后的矩阵
Y
*

WH
T

[0022]在上述步骤
B
中,相似性度量主要包括基于相关性的度量和基于距离的度量

在本专利技术中,我们使用的是基于欧几里得距离的度量,其计算如下:
[0023][0024]x
ig

x
ig
表示基因表达
g
=1,2,
...
,细胞中的
G i
=1,2,
...

N j
=1,2,
...

N
,其中
G

N
分别是基因和细胞的总数

对于距离矩阵
D

(d
ij
)
,元素
d
ij
表示单元和
i
单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于拉普拉斯正则化的单细胞
RNA

seq
数据的插补方法,其特征在于,所述方法包括以下步骤:步骤
A
:输入已知的基因表达矩阵
Y
;步骤
B
:利用基因表达矩阵
Y
得到细胞特征矩阵
W
和基因特征矩阵
H
,和细胞相似性矩阵
S
C
和基因相似性矩阵
Sg
,利用细胞特征矩阵
W
和基因特征矩阵
H
可以得到
W
的对角矩阵
D
W

H
的对角矩阵
D
h
;步骤
C
:利用细胞特征矩阵
W
和基因特征矩阵
H
可以得到
W
的对角矩阵
D
W

H
的对角矩阵
D
h
;步骤
D
:利用已知的
W、H、Y
进行非负矩阵分解的计算,得到式子:步骤
E
:利用已知的
λ
g

λ
C

λ1、
λ2、D
W
、D
h
、S
C
、Sg、W、H、Y
再对上式添加了拉普拉斯正则化项,得到式子:步骤
F
:对上式的
W
求梯度得:根据
KKT(Karush

Kuhn

Tucker)
互补条件得到通过乘法来对上式进行...

【专利技术属性】
技术研发人员:王林石坤徐显嵛
申请(专利权)人:天津科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1