【技术实现步骤摘要】
scRNA
‑
Seq细胞类型注释数据库的构建方法、装置及电子设备
[0001]本公开涉及scRNA
‑
Seq细胞类型注释
,尤其涉及一种scRNA
‑
Seq细胞类型注释数据库的构建方法、装置及电子设备。
技术介绍
[0002]单细胞转录组测序技术(single cell RNA sequencing technology,scRNA
‑
Seq)可以从单个细胞的分辨率水平分析细胞的转录组(RNA)表达谱,极大的促进了生物组织异质性的研究。解析并鉴定scRNA
‑
Seq数据包含的具体细胞类型是scRNA
‑
Seq数据挖掘的必经关键环节。
[0003]目前,根据scRNA
‑
Seq数据确定单体细胞类型进行通常采用以下方法:根据已有细胞类型数据库中的scRNA
‑
Seq数据与细胞类型训练细胞分类模型,根据训练完成的细胞分类模型对未确定细胞类型的单体细胞进行类型预测。
[ ...
【技术保护点】
【技术特征摘要】
1.一种scRNA
‑
Seq细胞类型注释数据库的构建方法,其特征在于,包括:根据目标物种的目标组织类型,在各公开发表的数据集中提取对应的组织类型的各单细胞数据,所述单细胞数据中包含各细胞的基因表达谱与各细胞的注释标签,所述注释标签用于标识细胞类型;将各单细胞数据分为各训练数据集与各测试数据集;基于各训练数据集对各预构建的细胞分类模型进行训练,其中,所述细胞分类模型与所述训练数据集一一对应;将各测试数据集中的各细胞的基因表达谱分别输入各训练完成后的细胞分类模型,得到测试数据集中的各细胞的分类预测结果;基于各所述测试数据集中的各细胞的细胞注释标签与对应的各细胞的分类预测结果对预构建的集成学习模型进行训练。2.根据权利要求1所述的方法,其特征在于,在所述将各单细胞数据分为各训练数据集与各测试数据集之前,所述方法还包括:对各所述单细胞数据进行预处理;将不同数据集中相同细胞类型的单细胞数据的注释标签进行统一。3.根据权利要求2所述的方法,其特征在于,所述对各所述单细胞数据进行预处理包括:基于预设筛选条件对各单细胞数据中的各所述基因表达谱进行筛选,并对各所述基因表达谱进行数据标准化;在各所述基因表达谱中选择特征基因,所述特征基因为在细胞间变异程度最高的基因。4.根据权利要求2所述的方法,其特征在于,所述将不同数据集中相同细胞类型的单细胞数据的注释标签进行统一包括:移除各单细胞数据之间的批次效应;计算各细胞类型的平均基因表达量;根据各所述平均基因表达量,两两判断不同单细胞数据的细胞类型是否相同,并将相同细胞类型的注释标签进行统一,直至将不同单细胞数据的细胞类型全部判断完成。5.根据权利要求1所述的方法,其特征在于,在将各测试数据集中的各细胞的基因表达谱分别输入各训练完成后的细胞分类模型,得到测试数据集中的各细胞的分类预测结果之前,所述方法还包括:根据测试数据集与预设评估函数对各训练完成后的细胞分类模型的分类能力进行评估;根据评估结果,按预设筛选阈值对所述细胞分类模型进行筛选。6.根据权利要求1
‑
5中任一项所述的方法,其特征在于,所述方法还包括:获取待识别细胞类型的细胞基因表达谱,并对所述细胞基因表达谱进行预处理;将处理后的细胞基因表达谱输入各所述细胞分类模型,得到各预测结果;将各所述预测结果输入集成学习模型中,得到所述待识别细胞类型的最终预测类型。7.一种scRNA
‑
Seq细胞类型注释数据库的构建装置,其特征在于,包括:提取单元,用于根据目标物种的目标组织类型,在各公开发表的数据集中提取对应的
组织类型的各单细胞数据,所述单细胞数据中包含各细胞的基因表达谱与各细胞的注释标签,所述注释标签用于标识细胞类型;分割单元,用于将各单细胞数据分为各训练数据集与各测试数据集;第一训练单元,用于基于各训练数据集对各预构建的细胞分类模型进行训练,其...
【专利技术属性】
技术研发人员:韦锟,袁永娴,王双毅,谢露,朱亚兵,
申请(专利权)人:武汉华大基因技术服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。