一种基于鲁棒非负矩阵分解的单细胞制造技术

技术编号:39785854 阅读:10 留言:0更新日期:2023-12-22 02:26
本发明专利技术属于单细胞

【技术实现步骤摘要】
一种基于鲁棒非负矩阵分解的单细胞RNA测序数据插补方法


[0001]本专利技术属于单细胞
RNA
测序
,具体涉及一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法


技术介绍

[0002]单细胞
RNA
测序
(scRNA

seq)
是一种用于分析单个细胞基因表达的高通量技术,它能够提供有关细胞异质性和功能的宝贵信息

然而,
scRNA

seq
数据常常存在着数据丢失或低质量的问题,因此需要插补
(imputation)
方法来填补这些缺失值

插补方法的目标是根据已有的数据推断出缺失值,以便更准确地描述细胞表达谱

基于矩阵分解的单细胞
RNA
数据插补方法是一类常用的插补技术,它将
scRNA

seq
数据表示为一个低秩矩阵的乘积,并利用矩阵分解来估计缺失值

该矩阵分解方法会受到噪音的影响,导致插补结果不准确

[0003]细胞聚类是针对
scRNA

seq
数据的最重要应用之一,为此开发了一系列聚类算法

例如
PCA
降维
+K

means
聚类,
PCA
降维
+K

means
聚类是目前一种流行的单细胞聚类方案,但是它不能解决
scRNA

seq
数据中的噪音问题

[0004]而
scRNA

seq
数据分析的常见任务是重建谱系轨迹并推断单细胞的分化和祖细胞状态

例如,
Monocle2
包对单细胞表达数据进行差异表达和时间序列分析

它根据生物过程的进展对单个细胞进行分类

但是,
Monocle2
不会为数据重新处理执行缺失插补

[0005]因此,如何能更加准确和合理的插补
scRNA

seq
数据是目前亟需解决的问题之一


技术实现思路

[0006]本专利技术的专利技术目的是提供一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,该一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法对于噪音使用相关熵诱导度量损失去替代最小平方误差损失,插补后的数据更加准确和合理

[0007]为实现上述专利技术目的,本专利技术的技术方案如下:
[0008]一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,利用基于鲁棒和非负矩阵分解的
scRNA

seq
数据插补方法的目标函数分别获取细胞特征矩阵
W
和基因特征矩阵
H
的最优参数,再利用
scRNMF
模型预测插补后的细胞基因表达数据
[0009]所述目标函数包括
C

loss
损失函数和最小平方损失函数两项损失函数

[0010]基于鲁棒和非负矩阵分解的
scRNA

seq
数据插补方法以下简称为
scRNMF。
[0011]本专利技术提供的方法通过训练求解目标函数,利用求解结果确定
scRNMF
模型,使用确定的
scRNMF
模型进行结果预测

[0012]本专利技术将原始表达矩阵中的噪音和基因真实表达的缺失值分类评估;对于原始表达矩阵中的零值,因测序技术噪音产生,使用
C

loss
损失去评估误差;对于非零值,由于是基因的真实表达,使用最小平方损失去评估误差

因此,本方法的损失由
C

loss
和最小平方损失两种损失函数组成,既可以对噪音鲁棒,又可以很好的拟合基因的真实表达

[0013]在上述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法中,给定单
个细胞基因表达矩阵
X∈R
G
×
C
,获取细胞特征矩阵
W∈R
G
×
k
,基因特征矩阵
H∈R
k
×
C
,其中
G

C
分别表示细胞和基因的数量,
k
是细胞和基因潜在特征的维度

[0014]在上述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法中,所述
scRNMF
模型表达式如下:
[0015][0016]所述目标函数中依次包括损失函数

正则项和正则因子,所述正则项包括分别约束基因因子
W
和细胞因子
H
的两个正则项

[0017]表达矩阵中没有负数,因此对
W

H
做了非负限制

[0018]本专利技术中为避免原始表达矩阵中的信息经过分解之后,影响细胞和基因的潜在表示的有效表达,通过设置约束基因因子
W
和细胞因子
H
的两个正则项和正则因子防止损失函数过拟合

[0019]在上述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法中,所述基于鲁棒和非负矩阵分解的
scRNA

seq
数据插补方法的目标函数如公式
(2)

[0020][0021]其中
K
G
是基因相似性矩阵,
K
C
是细胞相似性矩阵,
(g

c)
表示矩阵索引第
g
行第
c
列,
Xgc

X
矩阵的第
g

c
列元素,
Wgi

W
矩阵的第
g

i
列元素,
Hic

H
矩阵的第
i

c
列元素;是弗罗贝尼乌斯范数,
α

β
是控制对应正则项在目标函数中重要性的超参数,
k
是细胞和基因潜在特征的维度;...

【技术保护点】

【技术特征摘要】
1.
一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:利用基于鲁棒和非负矩阵分解的
scRNA

seq
数据插补方法的目标函数分别获取细胞特征矩阵
W
和基因特征矩阵
H
的最优参数,再利用
scRNMF
模型预测插补后的细胞基因表达数据所述目标函数包括
C

loss
损失函数和最小平方损失函数两项损失函数
。2.
如权利要求1所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:给定单个细胞基因表达矩阵
X∈R
G
×
c
,获取细胞特征矩阵
W∈R
G
×
k
,基因特征矩阵
H∈R
k
×
C
,其中
G

C
分别表示细胞和基因的数量,
k
是细胞和基因潜在特征的维度
。3.
如权利要求2所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:所述
scRNMF
模型表达式如下:所述目标函数中依次包括损失函数

正则项和正则因子,所述正则项包括分别约束基因因子
W
和细胞因子
H
的两个正则项
。4.
如权利要求3所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:所述基于鲁棒和非负矩阵分解的
scRNA

seq
数据插补方法的目标函数如公式
(2)

subject to

W≥0

H≥0.
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
其中
K
G
是基因相似性矩阵,
K
C
是细胞相似性矩阵,
(g

c)
表示矩阵索引第
g
行第
c
列,
Xgc

X
矩阵的第
g

c
列元素,
Wgi

W
矩阵的第
g

i
列元素,
Hic

H
矩阵的第
i

c
列元素;是弗罗贝尼乌斯范数,
α

β
是控制对应正则项在目标函数中重要性的超参数,
k
是细胞和基因潜在特征的维度;
l
c

C

loss
损失函数
。5.
如权利要求4所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:
C

loss
损失函数定义如下:
6.
如权利要求4所述的一种基于鲁棒非负矩阵分解的单细胞
RNA
测序数据插补方法,其特征在于:所述
W

H
分别由基因相似性矩阵
K
G
和细胞相似性矩阵
K
C
约束,所述
K
G

K
C
定义分别如下:
7.
如权利要求4所述的一种基于鲁...

【专利技术属性】
技术研发人员:钱昱磬邹权刘利丁漪杰
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1