基于混合实验组和对照组单细胞样本的差异分析方法及系统技术方案

技术编号:34437183 阅读:89 留言:0更新日期:2022-08-06 16:22
本发明专利技术涉及一种基于混合实验组和对照组单细胞样本的差异分析方法,包括:a.获取数据,并对所述数据进行质量控制及标准化处理,所述数据包括实验数据和开源数据;b.从标准化处理后的数据中筛选出高变基因的数据,并对筛选出的数据进行降维;c.根据降维后的数据,对单细胞进行多轮不同参数的聚类分析,计算每轮聚类分析的细胞亚群实验组和对照组的构成比例,以得到最优结果;d.对细胞亚群进行差异分析。本发明专利技术还涉及一种基于混合实验组和对照组单细胞样本的差异分析系统。本发明专利技术能够更好地发现由特定组构成的细胞亚群,从而实现在单细胞层面的实验组和对照组的差异分析。面的实验组和对照组的差异分析。面的实验组和对照组的差异分析。

【技术实现步骤摘要】
基于混合实验组和对照组单细胞样本的差异分析方法及系统


[0001]本专利技术涉及一种基于混合实验组和对照组单细胞样本的差异分析方法及系统。

技术介绍

[0002]高通量的单细胞技术目前是生物信息领域的热门研究方向之一,它带领了基因组学领域的转变,即从整体组织分析转向对单个细胞的详细和全面的研究,提供了对不同生物体组织中细胞多样性的洞察力。当前许多单细胞研究的目的主要集中在鉴定细胞类型(如B细胞,T细胞,以及表达独特基因的细胞亚群),很少聚焦于在单细胞层面分析实验组(即疾病组)和对照组的单细胞表达差异,且直接将全部单细胞按照实验组和对照组进行整体差异分析捕捉到的差异信号较弱,效果不佳。
[0003]在癌症等疾病中,由于组织中某一群细胞的病变就可能导致整个有机体的崩溃,而基于组织样本的分析仅仅获取了组织中所有细胞的平均表达信息,很难分辨细胞间的差异,也很难识别在疾病进展中起到重要作用的稀有细胞群。单细胞技术的出现有效地解决了这一问题,单细胞技术是在组织中分离单细胞并对其进行测序以获得单个细胞的基因表达的技术,它的发展使基因表达的研究达到了更高的分辨率。单细胞技术分为上游和下游两个层面,上游层面指的是细胞样本的制备和测序技术,包括单细胞分离、核酸提取和扩增、测序库制备、RNA测序。而下游层面则是针对单细胞表达矩阵的数据分析技术,包括数据质量控制、数据降维、聚类、差异分析等一系列数据分析。
[0004]目前单细胞研究的主要方向是鉴定新的细胞亚群类型和对疾病发展有重要作用的特殊细胞亚群。单细胞研究的取样策略通常有两种:一是通过实验获取疾病组织样本(如肺癌,肺纤维化的肺部组织样本)的单细胞,只针对疾病单细胞样本进行分析;二是选取疾病组织和健康组织的单细胞样本共同分析。两种方式都是通过从组织中分离单细胞进行测序,并鉴定细胞亚群。第一种取样方式更关注于鉴定疾病进程中的关键细胞亚群,即关键基因表达上调的细胞亚群;而第二种方法更关注细胞类型的鉴定,即分析实验组和对照组单细胞样本鉴定组织中不同的细胞类型(如B细胞、T细胞、巨噬细胞及其亚型等)。
[0005]上述提到的单细胞分析的主要任务是鉴定关键细胞亚群,所述关键细胞亚群可能表达某些独特基因并对疾病的发展产生重要的影响。但有一个问题一直是单细胞研究中很少关注到的,即是否能够从疾病样本和对照样本单细胞中找到有着共同表达模式(即共同表达某些基因),且单独由疾病样本或对照样本细胞构成的细胞亚群。
[0006]寻找上述细胞亚群的意义在于可以更精细化地进行差异分析。在之前的分析中,发现许多实验组和对照组的细胞亚群共享某种基因表达模式,即在多个细胞亚群中实验组和对照组的单细胞数目相近,这也意味着这些细胞不能体现实验组和对照组的表达差异。而细胞占比差距悬殊,尤其是一个基本由疾病样本细胞构成的细胞亚群较为罕见,而往往这类罕见的细胞群体高度表达了疾病相关的重要基因。如果能够在混合两组样本的细胞中找到这样的细胞亚群,就可以为解释疾病的发病机制提供独特的见解。
[0007]在组织层面的研究中,研究人员会直接使用实验组和对照组的组织样本的基因表
达数据进行差异分析,但这种分析方法在单细胞层面是行不通的。单细胞测序数据的特点是高维稀疏,仅一个组织样本就能分离出几千个单细胞,并且一个单细胞只表达一部分基因。在这样的数据背景下直接将实验组和对照组的细胞样本整体进行对比会使得到的差异信号很弱。

技术实现思路

[0008]有鉴于此,有必要提供一种基于混合实验组和对照组单细胞样本的差异分析方法及系统。
[0009]本专利技术提供一种基于混合实验组和对照组单细胞样本的差异分析方法,该方法包括如下步骤:a.获取数据,并对所述数据进行质量控制及标准化处理,所述数据包括实验数据和开源数据;b.从标准化处理后的数据中筛选出高变基因的数据,并对筛选出的数据进行降维;c.根据降维后的数据,对单细胞进行多轮不同参数的聚类分析,计算每轮聚类分析的细胞亚群实验组和对照组的构成比例,以得到最优结果;d.对细胞亚群进行差异分析。
[0010]优选地,所述的步骤a包括:
[0011]对原始表达矩阵进行质量控制,包括剔除低质量的细胞和基因;其中,低质量的细胞是指:表达基因数量较少,线粒体基因表达比例较高的细胞;低质量的基因是指:在细胞中表达比例较低的基因。
[0012]优选地,所述的步骤a还包括:
[0013]通过对唯一分子识别标签计数归一化缩小数值差异,采用LogNormalization方法,公式如下:
[0014][0015]其中,i表示细胞,j表示基因;
[0016]在对数据归一化之后,继续对数据进行缩放,公式如下:
[0017][0018]优选地,所述的步骤b包括:
[0019]通过对基因在细胞中的表达均值和方差进行建模,筛选高变基因,对单细胞在高变基因中的表达数据进行主成分分析,并可视化每个主成分的方差百分比,选择排名靠前的主成分用于后续聚类分析。
[0020]优选地,所述的步骤c具体包括:
[0021]采用基于图的聚类方法:首先计算每个细胞之间的相互距离以确定每个细胞的k最近邻,然后计算每个细胞与其k最近邻之间的邻域重叠构造共享最近邻图;公式如下,其中A,B代表两个细胞的“邻居”细胞数:
[0022][0023]优选地,所述的步骤c还包括:
[0024]使用Louvain算法作为模块化优化函数确定细胞亚群的数量:通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居
节点加入模块,重复迭代,最终形成节点簇;对于加权图,模块性计算公式如下,其中,m是图中边总数,i,j代表两个节点(即细胞),A
ij
代表两个节点的权重,k
i
,k
j
代表节点i,j所有边缘权重之和,c
i
,c
j
代表节点i,j的模块,δ是Kronecker delta函数:当x=y时,δ(x,y)=1;否则为0:
[0025][0026]优选地,所述的步骤d具体包括:
[0027]对每群细胞亚群计算差异基因:比较本群细胞和除本群细胞之外所有细胞的基因表达差异,使用Wilcoxon秩和检验方法进行差异表达分析。
[0028]本专利技术提供一种基于混合实验组和对照组单细胞样本的差异分析系统,该系统包括获取模块、筛选模块、聚类分析模块、差异分析模块,其中:所述获取模块用于获取数据,并对所述数据进行质量控制及标准化处理,所述数据包括实验数据和开源数据;所述筛选模块用于从标准化处理后的数据中筛选出高变基因的数据,并对筛选出的数据进行降维;所述聚类分析模块用于根据降维后的数据,对单细胞进行多轮不同参数的聚类分析,计算每轮聚类分析的细胞亚群实验组和对照组的构成比例,以得到最优结果;所述差异分析模块用于对细胞亚群进行差异分析。
[0029]本专利技术改变了现有的单细胞数据分析任务多数聚焦于鉴定表达关键基因本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合实验组和对照组单细胞样本的差异分析方法,其特征在于,该方法包括如下步骤:a.获取数据,并对所述数据进行质量控制及标准化处理,所述数据包括实验数据和开源数据;b.从标准化处理后的数据中筛选出高变基因的数据,并对筛选出的数据进行降维;c.根据降维后的数据,对单细胞进行多轮不同参数的聚类分析,计算每轮聚类分析的细胞亚群实验组和对照组的构成比例,以得到最优结果;d.对细胞亚群进行差异分析。2.如权利要求1所述的方法,其特征在于,所述的步骤a包括:对原始表达矩阵进行质量控制,包括剔除低质量的细胞和基因;其中,低质量的细胞是指:表达基因数量较少,线粒体基因表达比例较高的细胞;低质量的基因是指:在细胞中表达比例较低的基因。3.如权利要求2所述的方法,其特征在于,所述的步骤a还包括:通过对唯一分子识别标签计数UMI归一化缩小数值差异,采用LogNormalization方法,公式如下:其中,i表示细胞,j表示基因;在对数据归一化之后,继续对数据进行缩放,公式如下:4.如权利要求3所述的方法,其特征在于,所述的步骤b包括:通过对基因在细胞中的表达均值和方差进行建模,筛选高变基因,对单细胞在高变基因中的表达数据进行主成分分析,并可视化每个主成分的方差百分比,选择排名靠前的主成分用于后续聚类分析。5.如权利要求4所述的方法,其特征在于,所述的步骤c具体包括:采用基于图的聚类方法:首先计算每个细胞之间的相互距离以确定每个细胞的k最近邻,然后计算每个细胞与其k最近邻之间的邻域重叠构造共享最近邻图;公式如下,其中A,B代表两个细胞的“邻居”细胞数:6.如权利...

【专利技术属性】
技术研发人员:高俊晓殷鹏李楠
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1