【技术实现步骤摘要】
一种基于拉普拉斯正则化的单细胞RNA
‑
seq数据的插补方法
[0001]本专利技术涉及医学信息
,特别是一种基于拉普拉斯正则化的单细胞
RNA
‑
seq
数据的插补方法
。
技术介绍
[0002]随着分子生物学技术的不断发展,高通量测序已在多个领域应用
。
在
scRNA
测序实验中经常观察到基因在细胞中表达但未被检测到的丢失事件,这种情况被称之为
Dropout。
由此得到的基因
‑
细胞表达矩阵将包含许多由
Dropout
事件引起的假零点,这些错误零点会破坏生物信号,阻碍后续的分析,如细胞聚类和差异表达分析,所以需要解决掉
Dropout
所带来的问题,从而要用插补来完善缺失的值
。
[0003]迄今的插补方法主要可以分为三大类
。
第一类是使用概率模型直接模拟稀疏性的插补方法
。
例如,算法首先通过拟合
Gamma
‑
Normal
混合模型来插补基因的缺失概率,然后再依照相似细胞的基因表达信息来插补细胞的潜在的
Dropout。SAVER
为了解决
scRNA
数据的缺失,它通过贝叶斯方法结合了基因之间相似性信息来插补真正的基因表达
。
第二种方法通常是调整所有值,方法是平滑或扩散所识别到的相似的表达图谱中的细胞中的原始 ...
【技术保护点】
【技术特征摘要】
1.
一种基于拉普拉斯正则化的单细胞
RNA
‑
seq
数据的插补方法,其特征在于,所述方法包括以下步骤:步骤
A
:输入已知的基因表达矩阵
Y
;步骤
B
:利用基因表达矩阵
Y
得到细胞特征矩阵
W
和基因特征矩阵
H
,和细胞相似性矩阵
S
C
和基因相似性矩阵
Sg
,利用细胞特征矩阵
W
和基因特征矩阵
H
可以得到
W
的对角矩阵
D
W
和
H
的对角矩阵
D
h
;步骤
C
:利用细胞特征矩阵
W
和基因特征矩阵
H
可以得到
W
的对角矩阵
D
W
和
H
的对角矩阵
D
h
;步骤
D
:利用已知的
W、H、Y
进行非负矩阵分解的计算,得到式子:步骤
E
:利用已知的
λ
g
,
λ
C
、
λ1、
λ2、D
W
、D
h
、S
C
、Sg、W、H、Y
再对上式添加了拉普拉斯正则化项,得到式子:步骤
F
:对上式的
W
求梯度得:根据
KKT(Karush
‑
Kuhn
‑
Tucker)
互补条件得到通过乘法来对上式进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。