【技术实现步骤摘要】
一种基于单细胞组学的各亚群分子标记物的计算方法及系统
[0001]本专利技术属于生物信息学
,具体涉及一种在单细胞组学技术分析过程中,鉴定各细胞亚群分子标记物的快速,准确,高特异性的独立新型算法及系统。
技术介绍
[0002]单细胞和单核RNA测序(scRNA
‑
seq和snRNA
‑
seq)揭示了细胞类型的异质性,可以通过各种方法找到不同的细胞亚群。对细胞亚群的注释需要为每个亚群找到标记基因,这些标记基因具有高特异表达模式,用于标记不同亚群之间的区别,并促进单细胞测序数据与后续实验(如荧光活化细胞分选)的整合。
[0003]与此同时,随着单细胞测序研究中产生的细胞数量持续增加,以及技术进步和样本通量的增强,研究人员对计算资源和时间成本的需求也在增加,分析变得更加低效,这限制了数据分析的灵活性,也对有效管理单细胞测序工作流的可扩展性和效率提出了挑战。
[0004]另一方面,受益于纳入研究的细胞数量的增加,研究人员可以从感兴趣的细胞亚群进行迭代地再聚类,以研究更精确的细胞类型内的生物过程。然而,经过多次重新聚类后,亚群之间的差异变得逐渐微小,因此需要能够更高特异性地找到标记基因的方法。与此同时,识别仅存在于特定条件下的亚群需要能够从小规模亚群中识别新标记基因的计算方法。
[0005]Seurat被广泛认为是单细胞数据分析中最重要且最强大的工具之一。Seurat中的标记基因识别主要依赖于“FindMarkers”或“FindAllMarkers”函数。该算 ...
【技术保护点】
【技术特征摘要】
1.一种基于单细胞组学的各亚群分子标记物的计算方法,其特征在于,包括计算方法A和方法B中的一种或两种,方法A、方法B独立计算;其中,方法A包括如下的步骤:(1)获取单细胞组学数据,并对数据进行准确的细胞类型的注释;(2)利用注释信息,计算平均表达矩阵;(3)对平均表达矩阵进行最大标准化计算;(4)根据基因的最高表达所在的细胞类型亚群,将基因所在细胞类型亚群分为高表达组和低表达组;(5)过滤低表达基因,对每一个基因,在高表达组和低表达组中分别计算正分子指数、负分子指数以及分子指数;(6)根据基因的高表达组的数量、基础表达量和分子指数,进行综合排序;(7)使用热图和气泡图对分析结果进行可视化,同时提供计算过程中涉及的所有的中间运算指标;方法B的计算以Seraut软件提供的单细胞亚群分子标志物的计算输出结果为基础,包括如下步骤:(1)对计算输出结果进行特异度评分;(2)根据基因的最高表达所在的细胞类型亚群,将基因分配到各组;(3)根据基因的特异度进行排序,并排除冗余信息;(4)使用热图和气泡图对结果进行可视化,同时提供优化后的分子标志物矩阵。2.根据权利要求1所述的计算方法,其特征在于,方法A的步骤(1)中,单细胞组学的数据以Seurat S4对象方式储存,细胞类型的注释也储存在S4对象当中。3.根据权利要求1所述的方法,其特征在于,方法A的步骤(3)中,最大标准化的计算方法为:其中,x
ij
代表基因i在细胞亚群类型j当中的平均表达量;max x
i
表示基因i在各细胞亚群中表达量的最大值;代表进行了最大标准化之后的表达量。4.根据权利要求1所述的计算方法,其特征在于,方法A的步骤(4)中,利用指标S1,取值范围0
‑
1,对最大标准化后的每个基因的亚群进行二分类,其中高于S1的组的数量被记作n,低于S1的组的数量被记作m。5.根据权利要求4所述的计算方法,其特征在于,方法A的步骤(4)中,每个基因的最大标准化后表达量为1的细胞亚群均被储存,计算公式如下:其中c
i
代表基因i的最大标准化后表达量为1的细胞亚群;C代表所有的细胞亚群;代表最大标准化后基因i在细胞亚群j的表达量。6.根据权利要求4所述的计算方法,其特征在于,方法A的步骤(5)中,利用指标末尾基
因比例S2,取值范围为0
‑
1,对各组基因根据其平均表达量进行排序,并对末尾基因比例S2的基因进行过滤;正分子指数PMI和负分子指数NMI分别使用如下方法进行计算:正分子指数PMI和负分子指数NMI分别使用如下方法进行计算:正分子...
【专利技术属性】
技术研发人员:李翔,刘泽晨,张菲杨,魏嵬,陈劲草,赵琼一,亀井王丹,侯圣群,
申请(专利权)人:武汉大学中南医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。