基于信息熵筛选单细胞数据敏感性基因的方法技术

技术编号:34362002 阅读:39 留言:0更新日期:2022-07-31 07:42
本发明专利技术提供了一种基于信息熵筛选单细胞数据敏感性基因的方法及基于其的单细胞聚类分析方法和系统。具体地,包括:S1.接收单细胞测序数据的初次无监督聚类分析结果;S2.1根据所述无监督聚类分析结果,计算每个簇中各基因的变异系数,并将所述变异系数在簇内排名;S2.2保留在一自定义比例的簇内均具有高变异系数的基因;S2.3计算所述具有高变异系数的基因在每个簇中的平均表达量x,用于计算信息熵H(x);S2.4将某一基因的信息熵H(x)与一自定义的信息熵阈值X比较,从而得到敏感性基因筛选结果。使用本发明专利技术的方法可筛选敏感基因,从而进行单细胞测序数据的降噪,进而优化无监督聚类分析结果。类分析结果。

【技术实现步骤摘要】
基于信息熵筛选单细胞数据敏感性基因的方法


[0001]本专利技术涉及生物信息学领域,具体涉及一种基于信息熵筛选单细胞数据敏感性基因的方法及基于其的单细胞聚类分析方法和系统。

技术介绍

[0002]单细胞转录组测序技术(Single cell RNA sequencing;scRNA

seq)[1]是一种用于研究组成成分复杂或者细胞异质性较强的组织,例如大脑或者肿瘤组织等。相比于传统的转录组测序技术(Bulk RNA sequencing),scRNA

seq能够高通量且精准的对单个细胞进行外显子测序(同一个体不同细胞的DNA均一样,但是RNA的表达情况并不一样)。随着进行全面的scRNA

seq实验的技术进步,分析来自成千上万个细胞的高通量数据以提取生物学相关信息是相当具有挑战性的。单细胞转录组数据的分析主要有以下几个步骤:序列比对、条形码(Barcode)比对和UMI去重、质量控制(去除低质量的细胞)、数据标准化、高变基因(HVGs)筛选、数据降维以及无监督聚类。scRNA
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种筛选单细胞数据中敏感性基因的方法,其特征在于,所述方法包括步骤:S1.接收单细胞测序数据的初次无监督聚类分析结果,其中细胞被分为N个细胞簇;S2.根据所述初次无监督聚类分析结果,筛选每个簇中的敏感性基因,其中包括步骤:S2.1根据所述无监督聚类分析结果,计算每个簇中各基因的变异系数,并将所述变异系数在簇内排名;S2.2保留在一自定义比例的簇内均具有高变异系数的基因;S2.3计算所述具有高变异系数的基因在每个簇中的平均表达量x,用于计算信息熵H(x);其中,所述信息熵H(x)通过如下公式计算得到:其中,xi指某一基因在第i个簇的平均表达量;p(xi)指所述基因在第i个簇的平均表达量除以其在N个簇中的平均表达量之和;以及S2.4将某一基因的信息熵H(x)与一自定义的信息熵阈值X比较,当所述基因的信息熵H(xi)大于或等于阈值X时,则定义所述基因为敏感性基因,从而得到敏感性基因筛选结果。2.一种筛选单细胞数据中敏感性基因的装置,其特征在于,所述装置包括:接收单元,所述接收单元被配置为用于接收单细胞测序数据的初次无监督聚类分析结果;数据处理单元,所述数据处理单元包括敏感基因筛选子单元,所述敏感基因筛选子单元被配置为用于执行权利要求1中的S2.1

S2.4,和输出单元,输出所述敏感性基因筛选结果。3.如权利要求2的装置,其特征在于,所述装置还包括注释子单元,所述注释子单元用于对基因进行注释,例如,在筛选后对敏感性基因和/或非敏感性基因进行注释。4.一种筛选单细胞数据中敏感性基因的系统,其特征在于,包括:存储器,用于存储计算机可执行指令;以及...

【专利技术属性】
技术研发人员:陈泽川郝沛张晓明
申请(专利权)人:中国科学院上海巴斯德研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1