【技术实现步骤摘要】
一种基于鲁棒非负矩阵分解的单细胞RNA测序数据插补方法
[0001]本专利技术属于单细胞
RNA
测序
,具体涉及一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法
。
技术介绍
[0002]单细胞
RNA
测序
(scRNA
‑
seq)
是一种用于分析单个细胞基因表达的高通量技术,它能够提供有关细胞异质性和功能的宝贵信息
。
然而,
scRNA
‑
seq
数据常常存在着数据丢失或低质量的问题,因此需要插补
(imputation)
方法来填补这些缺失值
。
插补方法的目标是根据已有的数据推断出缺失值,以便更准确地描述细胞表达谱
。
基于矩阵分解的单细胞
RNA
数据插补方法是一类常用的插补技术,它将
scRNA
‑
seq
数据表示为一个低秩矩阵的乘积,并利用矩阵分解来估计缺失值
。
该矩阵分解方法会受到噪音的影响,导致插补结果不准确
。
[0003]细胞聚类是针对
scRNA
‑
seq
数据的最重要应用之一,为此开发了一系列聚类算法
。
例如
PCA
降维
+K
‑
means
聚类,
PCA
降维
+K
‑
【技术保护点】
【技术特征摘要】
1.
一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:利用基于鲁棒和非负矩阵分解的
scRNA
‑
seq
数据插补方法的目标函数分别获取细胞特征矩阵
W
和基因特征矩阵
H
的最优参数,再利用
scRNMF
模型预测插补后的细胞基因表达数据所述目标函数包括
C
‑
loss
损失函数和最小平方损失函数两项损失函数
。2.
如权利要求1所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:给定单个细胞基因表达矩阵
X∈R
G
×
c
,获取细胞特征矩阵
W∈R
G
×
k
,基因特征矩阵
H∈R
k
×
C
,其中
G
和
C
分别表示细胞和基因的数量,
k
是细胞和基因潜在特征的维度
。3.
如权利要求2所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:所述
scRNMF
模型表达式如下:所述目标函数中依次包括损失函数
、
正则项和正则因子,所述正则项包括分别约束基因因子
W
和细胞因子
H
的两个正则项
。4.
如权利要求3所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:所述基于鲁棒和非负矩阵分解的
scRNA
‑
seq
数据插补方法的目标函数如公式
(2)
:
subject to
:
W≥0
,
H≥0.
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
其中
K
G
是基因相似性矩阵,
K
C
是细胞相似性矩阵,
(g
,
c)
表示矩阵索引第
g
行第
c
列,
Xgc
是
X
矩阵的第
g
行
c
列元素,
Wgi
是
W
矩阵的第
g
行
i
列元素,
Hic
是
H
矩阵的第
i
行
c
列元素;是弗罗贝尼乌斯范数,
α
、
β
是控制对应正则项在目标函数中重要性的超参数,
k
是细胞和基因潜在特征的维度;
l
c
是
C
‑
loss
损失函数
。5.
如权利要求4所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:
C
‑
loss
损失函数定义如下:
6.
如权利要求4所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:所述
W
和
H
分别由基因相似性矩阵
K
G
和细胞相似性矩阵
K
C
约束,所述
K
G
和
K
C
定义分别如下:
7.
如权利要求4所述的一种基于鲁...
【专利技术属性】
技术研发人员:钱昱磬,邹权,刘利,丁漪杰,
申请(专利权)人:电子科技大学长三角研究院衢州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。