一种基于单细胞组学的各亚群分子标记物的计算方法及系统技术方案

技术编号:39140725 阅读:10 留言:0更新日期:2023-10-23 14:54
本发明专利技术提供一种基于单细胞组学的各亚群分子标记物的计算方法及系统。计算方法包括方法A和方法B中的一种或两种。方法A:(1)获取单细胞组学数据;(2)利用注释信息,计算平均表达矩阵;(3)对平均表达矩阵进行最大标准化计算;(4)将基因所在细胞类型亚群进行二分类;(5)过滤低表达基因,计算正、负分子指数以及分子指数;(6)根据基因的高表达组的数量、基础表达量和分子指数,进行综合排序;(7)使用热图和气泡图对分析结果进行可视化,同时提供计算过程中涉及的所有的中间运算指标,可视化得到结果。该方法明确提升了分子标志物的特异性,大幅提高计算效率,优化了传统分析方法的输出结果。优化了传统分析方法的输出结果。优化了传统分析方法的输出结果。

【技术实现步骤摘要】
一种基于单细胞组学的各亚群分子标记物的计算方法及系统


[0001]本专利技术属于生物信息学
,具体涉及一种在单细胞组学技术分析过程中,鉴定各细胞亚群分子标记物的快速,准确,高特异性的独立新型算法及系统。

技术介绍

[0002]单细胞和单核RNA测序(scRNA

seq和snRNA

seq)揭示了细胞类型的异质性,可以通过各种方法找到不同的细胞亚群。对细胞亚群的注释需要为每个亚群找到标记基因,这些标记基因具有高特异表达模式,用于标记不同亚群之间的区别,并促进单细胞测序数据与后续实验(如荧光活化细胞分选)的整合。
[0003]与此同时,随着单细胞测序研究中产生的细胞数量持续增加,以及技术进步和样本通量的增强,研究人员对计算资源和时间成本的需求也在增加,分析变得更加低效,这限制了数据分析的灵活性,也对有效管理单细胞测序工作流的可扩展性和效率提出了挑战。
[0004]另一方面,受益于纳入研究的细胞数量的增加,研究人员可以从感兴趣的细胞亚群进行迭代地再聚类,以研究更精确的细胞类型内的生物过程。然而,经过多次重新聚类后,亚群之间的差异变得逐渐微小,因此需要能够更高特异性地找到标记基因的方法。与此同时,识别仅存在于特定条件下的亚群需要能够从小规模亚群中识别新标记基因的计算方法。
[0005]Seurat被广泛认为是单细胞数据分析中最重要且最强大的工具之一。Seurat中的标记基因识别主要依赖于“FindMarkers”或“FindAllMarkers”函数。该算法基于以下运算逻辑:亚群的标记基因与其他亚群相比呈显著上调,因此,在某些基因的平均过程中可能会减弱这些特征。理想的标记基因应该仅在唯一的亚群中存在,因此,计算每个亚群的基因需要冗余计算并提供冗余信息,尤其是在处理具有更大规模和复杂注释的实验时。因此,经过迭代重新聚类后可能需要进一步的筛选方法来找到高特异性的标记基因。同时,对于细胞计数较低的亚群来说,识别标记基因也可能具有挑战性。
[0006]因此,目前继续一种基于单细胞组学的各亚群分子标记物的快速、准确、高特异度的计算方法。

技术实现思路

[0007]针对上述技术问题,本专利技术提供一种基于单细胞组学的各亚群分子标记物的快速、准确、高特异度的计算方法及系统。该方法可以解决单细胞测序分子标志物的计算过程中,大样本计算速度慢,小样本特异度低的情况。
[0008]本专利技术所述方法包括两种独立的方法,方法A和方法B,方法A记作“searchMarker”,方法B记作“filterMarker”。其中,“searchMarker”可以将单细胞表达数据与注释数据作为输入,高效准确地提供各细胞亚群的分子标志物,“filterMarker”则利用传统方案Seurat计算得到的分子标志物结果,对其进一步优化,得到特异度准确度更高的分子标志物。因此,本专利技术提供的计算方法可以实现高效地搜索单细胞测序数据中的分子标志物,有望成
为单细胞研究过程中的关键。
[0009]本专利技术提供的技术方案如下:
[0010]第一方面,本专利技术提供一种基于单细胞组学的各亚群分子标记物的计算方法,包括计算方法A和方法B中的一种或两种,方法A、方法B独立计算;
[0011]其中,方法A包括包括如下的步骤:
[0012](1)获取单细胞组学数据,并对数据进行准确的细胞类型的注释;
[0013](2)利用注释信息,计算平均表达矩阵;
[0014](3)对平均表达矩阵进行最大标准化计算;
[0015](4)根据基因的最高表达所在的细胞类型亚群,将基因所在细胞类型亚群分为高表达组和低表达组;
[0016](5)过滤低表达基因,对每一个基因,在高表达组和低表达组中分别计算正分子指数、负分子指数以及分子指数;
[0017](6)根据基因的高表达组的数量、基础表达量和分子指数,进行综合排序;
[0018](7)使用热图和气泡图对分析结果进行可视化,同时提供计算过程中涉及的所有的中间运算指标;
[0019]方法B的计算以Seraut软件提供的单细胞亚群分子标志物的计算输出结果为基础,包括如下步骤:
[0020](1)对计算输出结构进行特异度评分;
[0021](2)根据基因的最高表达所在的细胞类型亚群,将基因分配到各组;
[0022](3)根据基因的特异度进行排序,并排除冗余信息;
[0023](4)使用热图和气泡图对结果进行可视化,同时提供优化后的分子标志物矩阵。
[0024]进一步,方法A的步骤(1)中,单细胞组学的数据以Seurat S4对象方式储存,细胞类型的注释也储存在S4对象当中。
[0025]进一步,方法A的步骤(3)中,最大标准化的计算方法为:
[0026][0027]其中,x
ij
代表基因i在细胞亚群类型j当中的平均表达量;max x
i
表示基因i在各细胞亚群中表达量的最大值;
[0028]代表进行了最大标准化之后的表达量。
[0029]进一步,方法A的步骤(4)中,利用指标S1,取值范围0

1,对最大标准化后的每个基因的亚群进行二分类。高表达被定义为最大标准化后,值大于S1的细胞亚群种类,低表达则被定义为其他剩余的细胞亚群种类,其中高于S1的组的数量被记作n,低于S1的组的数量被记作m。
[0030]进一步,方法A的步骤(4)中,每个基因的最大标准化后表达量为1的细胞亚群均被储存,计算公式如下:
[0031][0032]其中c
i
代表基因i的最大标准化后表达量为1的细胞亚群;
[0033]C代表所有的细胞亚群;
[0034]代表最大标准化后基因i在细胞亚群j的表达量;
[0035]进一步,方法A的步骤(5)中,利用指标末尾基因比例S2,取值范围为0

1,对各组基因根据其平均表达量进行排序,并对末尾基因比例S2的基因进行过滤;由于在分子标志物的鉴定计算过程,表达量与特异性呈现出负相关关系,用户可以根据自身实际实验情况,选定合适的基因表达量阈值,鉴定在该阈值下的高特异性的分子标志物;
[0036]正分子指数PMI和负分子指数NMI分别使用如下方法进行计算,各变量含义与上述内容相同:
[0037][0038][0039][0040][0041]其中,表示为高于S1的细胞亚群的平均值,为低于S1的各细胞亚群的平均值,x
ij
代表基因i在细胞亚群类型j当中的平均表达量,代表进行了最大标准化之后的表达量;PMI
i
与NMI
i
分别代表正分子指数与负分子指数。
[0042]分子指数(MI)使用如下方法进行计算:
[0043]MI
i
=PMI
i

NMI
i
[0044]进一步,方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单细胞组学的各亚群分子标记物的计算方法,其特征在于,包括计算方法A和方法B中的一种或两种,方法A、方法B独立计算;其中,方法A包括如下的步骤:(1)获取单细胞组学数据,并对数据进行准确的细胞类型的注释;(2)利用注释信息,计算平均表达矩阵;(3)对平均表达矩阵进行最大标准化计算;(4)根据基因的最高表达所在的细胞类型亚群,将基因所在细胞类型亚群分为高表达组和低表达组;(5)过滤低表达基因,对每一个基因,在高表达组和低表达组中分别计算正分子指数、负分子指数以及分子指数;(6)根据基因的高表达组的数量、基础表达量和分子指数,进行综合排序;(7)使用热图和气泡图对分析结果进行可视化,同时提供计算过程中涉及的所有的中间运算指标;方法B的计算以Seraut软件提供的单细胞亚群分子标志物的计算输出结果为基础,包括如下步骤:(1)对计算输出结果进行特异度评分;(2)根据基因的最高表达所在的细胞类型亚群,将基因分配到各组;(3)根据基因的特异度进行排序,并排除冗余信息;(4)使用热图和气泡图对结果进行可视化,同时提供优化后的分子标志物矩阵。2.根据权利要求1所述的计算方法,其特征在于,方法A的步骤(1)中,单细胞组学的数据以Seurat S4对象方式储存,细胞类型的注释也储存在S4对象当中。3.根据权利要求1所述的方法,其特征在于,方法A的步骤(3)中,最大标准化的计算方法为:其中,x
ij
代表基因i在细胞亚群类型j当中的平均表达量;max x
i
表示基因i在各细胞亚群中表达量的最大值;代表进行了最大标准化之后的表达量。4.根据权利要求1所述的计算方法,其特征在于,方法A的步骤(4)中,利用指标S1,取值范围0

1,对最大标准化后的每个基因的亚群进行二分类,其中高于S1的组的数量被记作n,低于S1的组的数量被记作m。5.根据权利要求4所述的计算方法,其特征在于,方法A的步骤(4)中,每个基因的最大标准化后表达量为1的细胞亚群均被储存,计算公式如下:其中c
i
代表基因i的最大标准化后表达量为1的细胞亚群;C代表所有的细胞亚群;代表最大标准化后基因i在细胞亚群j的表达量。6.根据权利要求4所述的计算方法,其特征在于,方法A的步骤(5)中,利用指标末尾基
因比例S2,取值范围为0

1,对各组基因根据其平均表达量进行排序,并对末尾基因比例S2的基因进行过滤;正分子指数PMI和负分子指数NMI分别使用如下方法进行计算:正分子指数PMI和负分子指数NMI分别使用如下方法进行计算:正分子...

【专利技术属性】
技术研发人员:李翔刘泽晨张菲杨魏嵬陈劲草赵琼一亀井王丹侯圣群
申请(专利权)人:武汉大学中南医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1