增强scRNA-seq数据基因表达相互作用的方法、设备和介质技术

技术编号:39056280 阅读:22 留言:0更新日期:2023-10-12 19:49
本发明专利技术公开了一种增强scRNA

【技术实现步骤摘要】
增强scRNA

seq数据基因表达相互作用的方法、设备和介质


[0001]本专利技术属于数据处理
,具体地,涉及一种增强scRNA

seq数据基因表达相互作用的方法、设备和介质。

技术介绍

[0002]单细胞RNA测序(Single cell RNA sequencing,scRNA

seq)又叫单细胞转录组测序,是一种在单细胞水平上利用RNA测序对特定细胞群体进行基因表达谱定量的高通量实验技术,是近年来的一项热门技术。对于多细胞生物来说,细胞与细胞之间是有差异性的(cell heterogeneity),即细胞异质性。这种细胞异质性可以体现为不同的遗传背景,不同的分化状态,不同的物理特征,不同的基因突变谱和转录组、蛋白质组表达谱等。
[0003]对于单个细胞,由于mRNA分子采样不足,并不是所有的mRNA分子都能被捕获到,并且由于测序深度比较浅,一般每个细胞仅能检测到10%~50%的转录本,这导致细胞中许多基因计数为0,造成scRNA

seq测序结果中细胞基因表达矩阵的稀疏性。这种细胞基因表达矩阵的稀疏性给后续分析工作增加计算难度,也可能会严重模糊重要的基因间的相互关系。
[0004]为了克服单细胞RNA测序结果中细胞基因表达矩阵的稀疏性,目前大多数方法通过聚类的方式将成千上万的细胞聚类成少量的簇;或者通过其他方法合并基因(例如主成分分析[PCA]),创建“metagene”。虽然这些方法在一定程度上处理了稀疏性,但失去了单细胞或单基因的分辨率。

技术实现思路

[0005]为了解决上述技术问题,专利技术人旨在提供一种新的处理单细胞测序数据中稀疏性的方法,提高细胞聚类效果。为此,本专利技术采用的技术方案如下:本专利技术第一方面提供一种增强scRNA

seq数据基因表达相互作用的方法,包括以下步骤:S1,获得单细胞转录组测序数据的细胞

基因表达谱矩阵A;S2,基于所述细胞

基因表达谱矩阵A,利用主成分分析方法筛选N个主成分,其中N=20~50,得到PCA矩阵;S3,基于所述N个主成分的值计算任意两个细胞之间的距离,得到细胞距离矩阵D;S4,基于所述细胞距离矩阵D利用核函数计算任意两个细胞之间的相似性,得到细胞相似性矩阵C;S5,基于细胞相似性矩阵C,根据以下算法,计算任意两个细胞之间的转移概率,得到细胞转移概率矩阵:所述两个细胞包括第一细胞和第二细胞,所述第一细胞与所述第二细胞的转移概
率为所述第一细胞和所述第二细胞的相似性与第一细胞与所有细胞的相似性的总和的比值;S6,基于所述细胞转移概率矩阵,根据以下算法,对所述细胞

基因表达谱矩阵A进行插补:将第个细胞第个基因的表达量转换其余各个细胞的第个基因的表达量与所述第个细胞与相应细胞的转移概率的乘积的总和,其中,=1~且=1~,代表所述细胞

基因表达谱矩阵A中细胞数目,=1~,代表所述细胞

基因表达谱矩阵A中基因数目。
[0006]在本专利技术的一些实施方案中,在步骤S2进行主成分分析之前,进一步包括对所述对细胞

基因表达谱矩阵A根据文库大小进行归一化的步骤,归一化的方法为:;其中,代表归一化后第个细胞中第个基因的表达量,代表归一化前第个细胞中第个基因的表达量;代表第个细胞所有基因的表达量总和,=1~;代表所有细胞所有基因表达量总和的平均值。
[0007]主成分分析(Principal Component Analysis,PCA)是一种使用最广泛的数据降维算法。降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
[0008]在本专利技术的一些实施方案中,选择能够反应原始细胞差异的前N个主成分(PC)作为后续分析的数据。当N=20~50时,能反应约80%以上的信息。在本专利技术的一些优选实施方案中,选择N=30,即选择20个主成分进行分析,结果是足够稳健的。
[0009]在本专利技术的一些实施方案中,步骤S3中,所述距离为欧氏距离,所述的计算公式如下:;其中,代表第i个PC在第个细胞中的值,代表第i个PC在第个细胞中的值;=1~N。
[0010]在本专利技术的一些实施方案中,步骤S4中,在计算相似性之前,进一步使用UMAP(Uniform Manifold Approximation and Projection)算法对PCA矩阵进行非线性降维,降维后的结果为二维坐标信息,细胞基于表型的相似性聚集到不同区域。在本专利技术中,处于不同区域的细胞对稀疏矩阵的插补作用不明显,因此,对于处于不同区域的细胞,两两之间的相似性设置为0,对于同一区域的细胞,利用核函数计算任意两个细胞之间的相似性,
所述核函数为高斯核函数,所述的计算公式如下:;其中,是带宽,用于控制径向作用范围,=1~30。
[0011]不同的细胞具有不同的基因表达,不同的基因表达反映了细胞可能的表型,表型反映到细胞当中可以是细胞类型,如发育时期状态等。由于不同细胞的表型并不一致,因此针对不同细胞类型选择不同的值,太小(低于0.01时)会导致结果不稳定,准确性降低,即相同表型的细胞也难以分类为同类型细胞;越大高斯核函数的局部影响范围就会越大,过大时(大于100)产生过拟合的情况,即导致不同表型、距离较远的细胞也会被平均到一起,失去数据的分辨率。
[0012]在本专利技术的一些实施方案中,根据以下方式确定取值:先确定细胞和细胞所在区域的密度,当密度小于0.3时,取值为20~30,密度大于等于0.3且密度小于等于0.6时,取值为5~20,密度大于0.6时,取值为1~5。
[0013]在本专利技术的一些实施方案中,得到细胞转移概率矩阵后,进一步进行如下处理:(1)对于同一区域中任意细胞,确定与该两个细胞距离之和最小的15个细胞作为该两个细胞的邻居细胞,若不足15个,则全部其余细胞为邻居细胞;(2)对于每个细胞,将其与非邻居细胞的细胞转移概率设置为0。
[0014]在本专利技术的一些实施方案中,步骤S6中,通过对转移概率矩阵求幂,对所述细胞

基因表达谱矩阵A进行多重插补:;其中,代表第次插补后的细胞

基因表达谱矩阵;代表迭代次数,从1开始并逐次加1进行多重插补;当进行第次插补时,对于每个细胞的每个基因,转换所采用的表达量均为所述细胞

基因表达谱矩阵A中各基因的表达量。
[0015]在本专利技术中,由于马尔可夫转移概率矩阵的特征值均为[0,1]之间,特征值通过指数运算会逐渐减小,其范围也在[0,1]之间。随着马尔可夫转移概率矩阵多次求幂,除1以外的所有特征值的大小不断减小,如此能够降低噪声的重要性,其解释能力接近于零。随着的增加,细胞从它们的邻居细胞那里学习缺失的值,迅速获得生物学上非常相似的细胞之间的关系。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强scRNA

seq数据基因表达相互作用的方法,其特征在于,包括以下步骤:S1,获得单细胞转录组测序数据的细胞

基因表达谱矩阵A;S2,基于所述细胞

基因表达谱矩阵A,利用主成分分析方法筛选N个主成分,其中N=20~50,得到PCA矩阵;S3,基于所述N个主成分的值计算任意两个细胞之间的距离,得到细胞距离矩阵D;S4,基于所述细胞距离矩阵D利用核函数计算任意两个细胞之间的相似性,得到细胞相似性矩阵C;S5,基于细胞相似性矩阵C,根据以下算法,计算任意两个细胞之间的转移概率,得到细胞转移概率矩阵:所述两个细胞包括第一细胞和第二细胞,所述第一细胞与所述第二细胞的转移概率为所述第一细胞和所述第二细胞的相似性与第一细胞与所有细胞的相似性的总和的比值;S6,基于所述细胞转移概率矩阵,根据以下算法,对所述细胞

基因表达谱矩阵A进行插补:将第个细胞第个基因的表达量转换其余各个细胞的第个基因的表达量与所述第个细胞与相应细胞的转移概率的乘积的总和,其中,=1~且=1~,代表所述细胞

基因表达谱矩阵A中细胞数目,=1~,代表所述细胞

基因表达谱矩阵A中基因数目。2.根据权利要求1所述的一种增强scRNA

seq数据基因表达相互作用的方法,其特征在于,步骤S3中,所述距离为欧氏距离,所述的计算公式如下:;其中,代表第i个PC在第个细胞中的值,代表第i个PC在第个细胞中的值;=1~N。3.根据权利要求1或2所述的一种增强scRNA

seq数据基因表达相互作用的方法,其特征在于,步骤S4中,在计算相似性之前,进一步使用UMAP算法对PCA矩阵进行非线性降维,降维后的结果为二维坐标信息,细胞基于表型的相似性聚集到不同区域,对于处于不同区域的细胞,两两之间的相似性设置为0,对于同一区域的细胞,再利用核函数计算任意两个细胞之间的相似性,所述核函数为高斯核函数,所述的计算公式如下:;其中,是带宽,用于控制径向作用范围,=1~30。
4.根据权利要求3所述的一种增强scRNA

seq数据基因表达相互作用的方法,其特征在于,根据以下方式确定取值:先确定细胞和细胞所在区域的密度,当密度小于0.3时,取值为20~30,密度大于等于0.3且密度小于等于0.6时,取值为5~20,密度...

【专利技术属性】
技术研发人员:毛维康
申请(专利权)人:杭州联川基因诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1