细胞亚群自动注释方法、计算机程序和存储介质技术

技术编号:41984452 阅读:23 留言:0更新日期:2024-07-12 12:14
本发明专利技术公开了一种细胞亚群自动注释方法、构建单细胞数据库的方法、构建细胞亚群关联图谱的方法、计算机程序和存储介质。该注释方法包括以下步骤:S1.获取包含已注释的参考细胞亚群的参考数据集;S2.获取上述已注释的每个参考细胞亚群的多个标记基因;S3.根据上述参考数据集计算上述已注释的每个参考细胞亚群的每个标记基因的统计学分布参数;S4.获取待注释数据集,根据参考数据集的已注释的参考细胞亚群的标记基因及其统计学分布参数,对待注释数据集中的待注释的细胞亚群进行注释。该注释方法与现有的注释方法相比,其注释准确率明显更高。

【技术实现步骤摘要】

本专利技术涉及细胞亚群注释,尤其涉及一种细胞亚群自动注释方法、计算机程序和存储介质


技术介绍

1、单细胞转录组测序(scrna-seq,single-cell rna sequencing)技术,以单个细胞为单位,对单个细胞的基因表达信息进行测序,保存了不同细胞之间转录组信息的差异。单细胞测序技术能够检出传统的组织样本测序所无法得到的不同细胞之间转录组信息的差异,现有技术在研究利用这些差异信息,以通过这些差异信息进一步获得不同类型细胞及同种类型细胞之间的异质性信息。

2、首先,目前基因转录组的测序信息不能直接被用于细胞功能鉴定;例如使用流式分选得出的多个细胞,采用这些细胞的单细胞转录组测序信息进行注释后,发现注释出的细胞群比例和起初使用流式分选得出的细胞群比例不同;其次,目前依赖传统已知的细胞表面生物标志物无法完全覆盖组织内的各精细细胞亚群,无法完全解析各细胞亚群的生物学功能;因此,对基因转录组的测序信息进一步进行细胞亚群注释是实现细胞功能鉴定的重要方式。

3、细胞亚群注释包括人工注释和自动注释两种方式。人工注释需要通过专家人工查本文档来自技高网...

【技术保护点】

1.一种细胞亚群自动注释方法,其特征是,包括以下步骤:

2.如权利要求1所述的细胞亚群自动注释方法,其特征是,所述步骤S1包括以下任意一种到多种:1)从已有的单细胞数据库中获取参考数据集,2)获取人工注释的单细胞数据集作为参考数据集,3)利用单细胞研究文献中对单细胞数据集所划分的亚群标签及其注释信息获取参考数据集。

3.如权利要求1所述的细胞亚群自动注释方法,其特征是,参考数据集包括多个参考细胞主群,每个参考细胞主群包括多个参考细胞亚群。

4.如权利要求3所述的细胞亚群自动注释方法,其特征是,参考数据集还包括参考细胞亚群的基因以及基因在对应参考细胞亚群...

【技术特征摘要】

1.一种细胞亚群自动注释方法,其特征是,包括以下步骤:

2.如权利要求1所述的细胞亚群自动注释方法,其特征是,所述步骤s1包括以下任意一种到多种:1)从已有的单细胞数据库中获取参考数据集,2)获取人工注释的单细胞数据集作为参考数据集,3)利用单细胞研究文献中对单细胞数据集所划分的亚群标签及其注释信息获取参考数据集。

3.如权利要求1所述的细胞亚群自动注释方法,其特征是,参考数据集包括多个参考细胞主群,每个参考细胞主群包括多个参考细胞亚群。

4.如权利要求3所述的细胞亚群自动注释方法,其特征是,参考数据集还包括参考细胞亚群的基因以及基因在对应参考细胞亚群的表达值。

5.如权利要求1所述的细胞亚群自动注释方法,其特征是,步骤s1中,还对所获取的参考数据集进行数据预处理。

6.如权利要求5所述的细胞亚群自动注释方法,其特征是,步骤s1中,数据预处理具体包括:去除低质量数据,且/或滤除已注释的每个参考细胞亚群的与细胞周期相关的基因。

7.如权利要求6所述的细胞亚群自动注释方法,其特征是,所述与细胞周期相关的基因包括rpl家族基因和rps家族基因。

8.如权利要求1所述的细胞亚群自动注释方法,其特征是,步骤s2具体地,对上述已注释的每个参考细胞亚群的基因按照其在参考数据集中表达的频次和/或表达值进行排序,以排序靠前的多个基因作为该参考细胞亚群的标记基因。

9.如权利要求8所述的细胞亚群自动注释方法,其特征是,步骤s2中,以排序靠前的30个基因作为该参考细胞亚群的标记基因。

10.如权利要求1所述的细胞亚群自动注释方法,其特征是,步骤s2中,获取细胞亚群所属类型对应的特异性基因,若参考细胞亚群含有上述特异性基因,则以该特异性基因作为该参考细胞亚群的标记基因。

11.如权利要求1所述的细胞亚群自动注释方法,其特征是,步骤s2中,还获取已注释的参考细胞亚群的标记基因的信息,该信息包含:(1)基因在参考细胞亚群的表达频次,(2)基因在参考细胞亚群的表达量。

12.如权利要求1所述的细胞亚群自动注释方法,其特征是,步骤s3是计算已注释的每个参考细胞亚群的每个标记基因在其所在的参考数据集、所在的参考细胞主群、所在的参考细胞亚群的统计学分布,并获得对应的统计学分布参数。

13.如权利要求12所述的细胞亚群自动注释方法,其特征是,步骤s3中,所述统计学分布为泊松分布和/或拟合的泊松分布。

14.如权利要求13所述的细胞亚群自动注释方法,其特征是,步骤s3中,所述统计学分布参数是泊松分布参数和/或经过高斯分布误差项拟合后的泊松分布参数。

15.如权利要求3或12所述的细胞亚群自动注释方法,其特征是,所述参考细胞亚群是所述参考细胞主群中的子数据集,所述参考细胞主群是所述参考数据集的子数据集。

16.如权利要求12所述的细胞亚群自动注释方法,其特征是,步骤s3具体地,对已注释的每个参考细胞亚群的每个标记基因,分别构建该标记基因在其所在的参考数据集的、所在的参考细胞主群的和所在的参考细胞亚群的经高斯分布误差项拟合后的泊松分布函数,据此计算得出该标记基因在其所在的参考数据集、所在的参考细胞主群、所在的参考细胞亚群的泊松分布参数λ和高斯分布误差项的参数。

17.如权利要求16所述的细胞亚群自动注释方法,其特征是,步骤s3中,具体是通过极大似然估计计算标记基因在其所在的参考数据集的、所在的参考细胞主群的和所在的参考细胞亚群的泊松分布函数的高斯分布误差项的参数。

18.如权利要求16或17所述的细胞亚群自动注释方法,其特征是,步骤s3中,根据所计算得到的已注释的每个参考细胞亚群的每个标记基因在参考数据集、参考细胞主群和参考细胞亚群三个维度所对应的参数和泊松分布参数λ构建参数集合。

19.如权利要求16所述的细胞亚群自动注释方法,其特征是,步骤s3中,标记基因在其所在的参考数据集的、所在的参考细胞主群的和所在的参考细胞亚群的经高斯分布误差项拟合后的泊松分布函数分别如下:

20.如权利要求1所述的细胞亚群自动注释方法,其特征是,步骤s4具体地:

21.如权利要求20所述的细胞亚群自动注释方法,其特征是,步骤s41包括:

22.如权利要求21所述的细胞亚群自动注释方法,其特征是,所述综合概率评分按照如下公式进行计算:

23.如权利要求21所述的细胞亚群自动注释方法,其特征是,步骤s41还包括:

24.如权利要求23所述的细胞亚群自动注释方法,其特征是:

25.如权利要求24所述的细胞亚群自动注释方法,其特征是,步骤s412中,按照如下公式对基因的表达值进行归一化处理:

26.如权利要求25所述的细胞亚群自动注释方法,其特征是,所述综合概率评分按照如下公式进行计算:

27.如权利要求20至26中任一项所述的细胞亚群自动注释方法,其特征是:

28.如权利要求27所述的细胞亚群自动注释方法,其特征是,步骤s3中,所述统计学分布为泊松分布和/或拟合的泊松分布。

29.如权利要求28所述的细胞亚群自动注释方法,其特征是,步骤s3中,所述统计学分布参数是泊松分布参数和/或经过高斯分布误差项拟合后的泊松分布参数。

3...

【专利技术属性】
技术研发人员:雷文陈西茜杨彬
申请(专利权)人:智泽童康广州生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1