基于融合定位的scRNA-seq数据缺失值填充方法及装置制造方法及图纸

技术编号:36534859 阅读:37 留言:0更新日期:2023-02-01 16:19
本发明专利技术涉及基于融合定位的scRNA

【技术实现步骤摘要】
基于融合定位的scRNA

seq数据缺失值填充方法及装置
[0001]技术邻域
[0002]本专利技术涉及生物信息学技术邻域,尤其涉及基于融合定位的scRNA

seq数据缺失值填充方法及装置。

技术介绍

[0003]单细胞转录组测序(single

cell RNA sequencing)是一种可以获得单个细胞内高分辨率的转录组测序技术。它广泛应用于探索细胞发育和细胞分化过程,为研究细胞异质性和细胞类型识别提供了新的方向,由于测序过程中存在扩增偏差、细胞周期效应、文库大小差异等情况,尤其是mRNA的低捕获效率(大约只能捕捉到实际存在约10%的mRNA分子,mRNA的含量一般只有10皮克左右,因此低表达基因在scRNA

seq中是难以检测的),导致了scRNA

seq数据包含的大量技术噪声,其通常被称作缺失零(dropout zero)。同时,并不是每个基因在细胞中都会有表达也存在真实零表达的基因。在scRNA

seq数据中真实零和缺失零混合在一起,零值占比往往超过50%,高稀疏性是scRNA

seq数据的一大特征。因此表达细胞真正特异性的

真实

零存在使得这个缺失值插补极具挑战性。插补性能极大地影响了下游分析的准确性。
[0004]目前插补方法分为算法、统计学习、深度学习三大类。基于这三类通常的插补方法在进行插补时对所有零值进行插补,同时改变了非零值等,由于基因转录在每一个单细胞中都是一个开关统计过程,因此许多零可能是没有在细胞中转录的基因真实零,对真实零值进行插补可能会带来严重的噪声或伪影(artifacts),这些可以看作全覆盖插补。

技术实现思路

[0005]本专利技术的目的是为了至少解决现有技术的不足之一,提供基于融合定位的scRNA

seq数据缺失值填充方法及装置。
[0006]为了实现上述目的,本专利技术采用以下的技术方案:
[0007]具体的,提出基于融合定位的scRNA

seq数据缺失值填充方法,包括以下:
[0008]获取待处理的scRNA

seq数据作为目标数据,对目标数据进行聚类得到一组共n个预标签,根据所述预标签将目标数据分割为C1,C2,.....C
n
不同的数据块;
[0009]针对每一个数据块,结合scRNA

seq基因表达矩阵,通过基于高斯分布、零膨胀泊松分布、零膨胀负二项分布设计的统计模型与数据拟合,计算得到所有数据的缺失值概率矩阵;
[0010]对所述缺失值概率矩阵进行动态阈值划分得到缺失值的位置作为初始缺失值位置;
[0011]将高差异基因作为特征基因以及表达超10%的位置与初始缺失值位置做与运算,从初始缺失值位置中筛选出最终的缺失值位置;
[0012]生成每个预标签所对应的缺失值模拟值,通过训练生成的混合神经网络模型对任意预标签所生成的数据进行筛选,如果某预标签内样本数大于400对其再进行子聚类,最终
将所有预标签内生成数据的求均值作为最终生成的模拟值即待插补值;
[0013]结合最终的缺失值位置以及待插补值完成数据缺失值填充。
[0014]进一步,具体的,对目标数据进行聚类的方式采用leiden聚类方法。
[0015]进一步,具体的,通过基于高斯分布、零膨胀泊松分布、零膨胀负二项分布设计的统计模型与数据拟合,计算得到所有数据的缺失值概率矩阵,包括,
[0016]通过ZIP泊松分布和常量零的混合模型,拟合目标数据中零值里真实零与缺失零的分布,ZIP的概率质量函数为:
[0017][0018]其中φ是每个细胞中基因g常量零的比率,y为基因表达量同时作为一个指示器函数的作用,y>0指示的函数为泊松分布的概率函数,λ是泊松分布的期望和方差;
[0019]通过ZINB负二项分布和常量零的混合模型,拟合整体为ZIP提供初始参数,ZINB的概率质量函数为:
[0020][0021]其中φ是每个细胞中基因g常量零的比率,y为基因表达量同时具有一个指示器函数的作用,y>0指示的函数为负二项分布概率质量函数,λ是大小参数,k是NB分布的概率参数;
[0022]通过Normal高斯分布拟合矩阵里非零值的表达,高斯分布的概率质量函数为:
[0023][0024]使用描述真实零与缺失零分布的ZIP与描述具有表达值的Normal分布来描述实际的基因表达值,在ZIP嵌套一个ZINB来拟合数据获得两个分布参数的初始值,对于一个基因在亚群k下被建模为:
[0025][0026]考虑细胞类型,对于每个基因i,其在细胞亚群k中的表达被建模为具有密度函数的随机变量x
i
,亚群k内基因i缺失率为:
[0027][0028]通过EM最大似然估计ZINB与Normal分布的初始参数,过程如下,
[0029]将零膨胀负二项分布的表达式在y=0与y>0的分布拆开,
[0030][0031]根据数据特征模型可以写成:
[0032][0033]其中θ=(φ,λ,k)
[0034]将观测数据Y=(Y1,Y2,

,Y
n
)
T
表示为:
[0035][0036]E步:计算模型在参数λ
(i)
,k
(i)
下观测到y
i
来自缺失事件的概率为
[0037][0038]M步:计算模型参数的新估计值
[0039][0040][0041][0042]首先使用EM最大似然估算ZINB的初始参数,再使用ZINB拟合数据得到的参数作为ZIP的初始参数,固定ZIP已有的初始参数再使用EM最大似然估算(4)的初始参数,
[0043]考虑细胞类型,在(5)对于每个基因i,其在细胞亚群C
i
中的表达被建模为具有密度函数的随机变量X
i
,亚群C
i
内基因i缺失率为d
i(k)
,通过以上计算得到缺失值概率矩阵。
[0044]进一步,具体的,对所述缺失值概率矩阵进行动态阈值划分得到缺失值的位置作为初始缺失值位置,包括,
[0045]Step1:将计算得到的缺失值概率矩阵按样本降序,并计算近邻基因的概率差值,构建差值矩阵,
[0046][0047]Step2:根据step1得到的差值矩阵找到矩阵里每一个样本的最大值,并返回缺失值概率矩阵对大于该最大值上阕的概率值的个数求和,如此得到所有样本的初始阈值的一维数组。
[0048][0049]Step3:设置阈值t,t以上的最大值的个数作为固定值,在求固定值的均值,
[0050][0051]St本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于融合定位的scRNA

seq数据缺失值填充方法,其特征在于,包括以下:获取待处理的scRNA

seq数据作为目标数据,对目标数据进行聚类得到一组共n个预标签,根据所述预标签将目标数据分割为C1,C2,.....C
n
不同的数据块;针对每一个数据块,结合scRNA

seq基因表达矩阵,通过基于高斯分布、零膨胀泊松分布、零膨胀负二项分布设计的统计模型与数据拟合,计算得到所有数据的缺失值概率矩阵;对所述缺失值概率矩阵进行动态阈值划分得到缺失值的位置作为初始缺失值位置;将高差异基因作为特征基因以及表达超10%的位置与初始缺失值位置做与运算,从初始缺失值位置中筛选出最终的缺失值位置;生成每个预标签所对应的缺失值模拟值,通过训练生成的混合神经网络模型对任意预标签所生成的数据进行筛选,如果某预标签内样本数大于400对其再进行子聚类,最终将所有预标签内生成数据的求均值作为最终生成的模拟值即待插补值;结合最终的缺失值位置以及待插补值完成数据缺失值填充。2.根据权利要求1所述的基于融合定位的scRNA

seq数据缺失值填充方法,其特征在于,具体的,对目标数据进行聚类的方式采用leiden聚类方法。3.根据权利要求1所述的基于融合定位的scRNA

seq数据缺失值填充方法,其特征在于,具体的,通过基于高斯分布、零膨胀泊松分布、零膨胀负二项分布设计的统计模型与数据拟合,计算得到所有数据的缺失值概率矩阵,包括,通过ZIP泊松分布和常量零的混合模型,拟合目标数据中零值里真实零与缺失零的分布,ZIP的概率质量函数为:其中φ是每个细胞中基因g常量零的比率,y为基因表达量同时作为一个指示器函数的作用,y>0指示的函数为泊松分布的概率函数,λ是泊松分布的期望和方差;通过ZINB负二项分布和常量零的混合模型,拟合整体为ZIP提供初始参数,ZINB的概率质量函数为:其中φ是每个细胞中基因g常量零的比率,y为基因表达量同时具有一个指示器函数的作用,y>0指示的函数为负二项分布概率质量函数,λ是大小参数,k是NB分布的概率参数;通过Normal高斯分布拟合矩阵里非零值的表达,高斯分布的概率质量函数为:使用描述真实零与缺失零分布的ZIP与描述具有表达值的Normal分布来描述实际的基因表达值,在ZIP嵌套一个ZINB来拟合数据获得两个分布参数的初始值,对于一个基因在亚
群k下被建模为:考虑细胞类型,对于每个基因i,其在细胞亚群k中的表达被建模为具有密度函数的随机变量x
i
,亚群k内基因i缺失率为:通过EM最大似然估计ZINB与Normal分布的初始参数,过程如下,将零膨胀负二项分布的表达式在y=0与y>0的分布拆开,根据数据特征模型可以写成:其中θ=(φ,λ,k)将观测数据Y=(Y1,Y2,

,Y
n
)
T
表示为:E步:计算模型在参数λ
(i)
,k
(i)
下观测到y
i
来自缺失事件的概率为M步:计算模型参数的新估计值M步:计算模型参数的新估计值
首先使用EM最大似然估算ZINB的初始参数,再使用ZINB拟合数据得到的参数作为ZIP的初始参数,固定ZIP已有的初始参数再使用EM最大似然估算(4)的初始参数,考虑细胞类型,在(5)对于每个基因i,其在细胞亚群C
...

【专利技术属性】
技术研发人员:朱晓姝蒙霜丁小军谢妙赵利权
申请(专利权)人:玉林师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1