The present invention relates to a method for estimating the number of data samples of high throughput transcripts. First, identify the differentially expressed genes, then transform the expression values of each differentially expressed gene to two values, then cluster the samples and differentially expressed genes, and establish the two valued expression model of the data by using the enrichment analysis method. In order to determine whether the algorithm converges, the corresponding two valued expression model is evaluated for each given number of clusters. Compared with the existing technology, the present method evaluates the similarity among sample classifications, and ensures that every class of samples is different from other samples. The invention also has good noise robustness, and can also reduce the deviation caused by artificial determination.
【技术实现步骤摘要】
高通量转录组数据样本分类数目估计方法
本专利技术涉及一种高通量转录组数据样本分类数目估计方法,是针对高通量转录组学数据的分析方法,属于生物数据分析领域。
技术介绍
高通量组学分析,在生物医学研究领域有着极广泛的应用。相较于传统的分子生物学研究,组学分析可以大大提高分析通量,即一次可以对上万个目标分子进行测量。也正因为如此,组学数据的数据结构复杂性大大增加了。因此统计分析在组学数据解读中发挥了重要的作用。聚类分析方法在转录组学数据分析中得到了广泛应用。但是目前对于如何将转录组数据进行有生物学意义的分类还没有一个共识,其中关键的问题是分类数目的确定。已有的方法可以分为两大类:1、人工检查法。这一类方法将高维数据投影到低维空间中(通常是2维或3维),然后通过人工审查判定聚类数目。这一类方法受研究者主观因素影响很大。并且由于受到噪声的干扰,不同类别之间的界限有可能被混淆,从而造成误判。2、统计度量法。通过计算某些与分类数目相关的统计量来预测分类数目。例如,通过计算类内的稀疏度和熵来检测分类数目是否合适,或者将分类数目设置为描述数据特征所使用的特征值的数目,等等。这一类方法为分类提供了客观的参考依据,但是,目前很多的统计度量法都还需要人工来判断统计量随着分类数目增加而出现的拐点,从而估计恰当的分类数目,这就增加了主观误差。更重要的是,现有的统计量都无法保证所得到的分类之间是显著统计差异的,因此可能会造成数据解读困难。
技术实现思路
针对现有技术存在的问题,本专利技术提出一种新的基于统计学理论的高通量转录组数据样本分类数目估计方法。本专利技术方法使用递归循环计算,每次循环 ...
【技术保护点】
一种高通量转录组数据样本分类数目估计方法,通过循环过程自动判断收敛,对数据聚类时的分类数目作出估计,其特征在于包括如下步骤:(一)由高通量转录组数据样本集筛选出差异表达基因,由差异表达基因的表达数据构成差异表达基因表达谱;(二)在上述差异表达基因表达谱中,对每一个差异表达基因的表达值进行二值化转换;(三)设定N的初始值为2,N为样本分类数目;(四)把样本分成N类,同时把差异表达基因分成K类,使用富集分析方法建立数据的二值化N×K表达模型矩阵;(五)分析步骤(四)得到的二值化N×K表达模型矩阵,若N类样本中有至少两类的表达谱特征相同,也就是二值化N×K表达模型矩阵中有至少两列的值完全相同,则算法收敛,此时输出N的值,N=N‑1;否则,N=N+1,重复步骤(四)和(五)。
【技术特征摘要】
1.一种高通量转录组数据样本分类数目估计方法,通过循环过程自动判断收敛,对数据聚类时的分类数目作出估计,其特征在于包括如下步骤:(一)由高通量转录组数据样本集筛选出差异表达基因,由差异表达基因的表达数据构成差异表达基因表达谱;(二)在上述差异表达基因表达谱中,对每一个差异表达基因的表达值进行二值化转换;(三)设定N的初始值为2,N为样本分类数目;(四)把样本分成N类,同时把差异表达基因分成K类,使用富集分析方法建立数据的二值化N×K表达模型矩阵;(五)分析步骤(四)得到的二值化N×K表达模型矩阵,若N类样本中有至少两类的表达谱特征相同,也就是二值化N×K表达模型矩阵中有至少两列的值完全相同,则算法收敛,此时输出N的值,N=N-1;否则,N=N+1,重复步骤(四)和(五)。2.根据权利要求1所述的高通量转录组数据样本分类数目估计方法,其特征在于:所述步骤(一)的具体步骤包括:(1)对全部样本,使用公式来计算噪声的平均波动水平,其中a1和a0是回归常数,使用广义线性回归模型来估计;μ是基因的平均表达值;再对每一个基因的样本,计算该基因的平均表达值μ和基因表达方差σ,并按照CV2=σ2/μ2计算该基因的波动水平CV2,然后选取那些的基因;(2)对于经步骤(1)选取的基因,使用主成分分析PCA方法选取差异表达基因;(3)选取样本中包含差异表达基因的基因表达数据,构成差异表达基因表达谱。3.根据权利要求1所述的高通量转录组数据样本分类数目估计方法,其特征...
【专利技术属性】
技术研发人员:邹欣,
申请(专利权)人:上正大上海基因生物工程有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。