当前位置: 首页 > 专利查询>塔里木大学专利>正文

一种显著性分析方法技术

技术编号:15076656 阅读:83 留言:0更新日期:2017-04-07 10:01
本发明专利技术公开了一种显著性分析方法,分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR。在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选;对于两种类型的差异基因,采用t检验来鉴别差异性。发明专利技术为了减少小样本造成的差异筛选误差,利用随机方差模型修正的T检验对两组进行比较,计算基因间的显著性水平和误判率,从而得到差异的基因,该方法具有准确度高的特点,适合推广应用。

A significant analysis method

The invention discloses a method for analyzing the significance, which is used to obtain the p value and the P (k) value by using the Fisher exact test and the chi square test, respectively, and the FDR value of pathway is determined by the multiple comparison test. In the case of small samples, the t test or F test was used to screen the differential genes, and the t test was used to identify the difference between the two types of differential genes. In order to reduce the difference caused by the invention of small sample screening errors of the two groups were compared using T test random variance model, the calculation between genes significant level and error rate, so as to obtain the differential gene, this method has the features of high accuracy, suitable for popularization and application.

【技术实现步骤摘要】

本专利技术属于基因
,涉及一种显著性分析方法,具体地说,涉及一种Pathway的显著性分析方法。
技术介绍
KEGG(KyotoEncyclopediaofGenesandGenomes)全称是京都基因与基因组大百科全书,是系统分析基因(及其编码产物)间关系、基因功能、基因组信息的数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息。KEGG提供的整合代谢途径(pathway)查询十分出色,包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化各步反应的酶进行了全面的注解。KEGG是进行生物体内代谢分析、代谢网络研究的强有力工具。目前KEGGPathway分为8个类别,分别为总体网络、代谢过程、遗传信息传递、环境信息传递、胞内生物过程、生物体系统、人类疾病及药物研发八大类。Pathway分析所用到的数据库包括KEGG、Biocarta等数据库,但不仅限于这些数据库。基于KEGG数据库,对差异基因利用Fisher精确检验和卡方检验,把目标基因参与的Pathway进行显著性分析,按照Pvalue<0.05进行筛选,得到显著性的Pathway。在研究两组样本差异时,我们把差异基因作为研究对象,进行进一步的研究,由于芯片检测过程中,每组仅有3张芯片,属于小样本数据(小于30),容易造成较高的误差。目前,现有技术中需要一种准确度高的显著性分析方法。
技术实现思路
为了克服现有技术中存在的缺陷,本专利技术提出了一种准确度高的显著性分析方法,该方法为了减少小样本造成的差异筛选误差,利用随机方差模型(RVM)修正的T检验对两组进行比较,计算基因间的显著性水平(P-value)和误判率(FDR),从而得到差异的基因。其技术方案如下:一种显著性分析方法,包括以下步骤:步骤1:分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR。最后得出显著性pathway,完成pathway-Analysis。ENRICHMENT计算公式为:Re=nf/nNf/N,(Re=ENRICHMENT)]]>nf:表示差异基因在pathway中的数目。Nf:表示差异基因的数目。n:表示pathway中含有基因的总数目。N:表示芯片上检测出来基因的总数目。p1:表示差异基因落在pathway中的概率。p2:表示差非异基因不落在pathway中的概率。假设:H0:p1=p2,H1:p1≠p2;步骤2:在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选。对于两种类型的差异基因,采用t检验来鉴别差异性。首先设为各类型中样本的平均值,为其方差,样本量分别为n1,n2,检测的统计量为:其中t服从自由度为n1+n2-2的t分布。随机方差模型在于估计t检验中的方差选择反伽玛分布作为此方差的方差模型。首先,选择的线性模型为:yij=x′iβj+εij。其中,yij为来自i样本的基因j的标准化表达值,xi为标志不同类型特性的向量,βj为针对特性的系数向量,εij为未知残差,其均值为0,且方差未知。对于每一个基因j,且方差的样本估计值服从反伽玛分布。对βj的假设检验基于给定的基因表达数据。根据线形模型要检验的假设为H0:β∈ω,ω为线性子空间Rk,k表示xi和βj的维数,r≡k-dim(ω)表示受子空间ω约束的线性向量的维数。在Rk空间上,对β的最大似然估计为以及在ω子空间上,对β的最大似然估计为其中Xω代表在子空间ω上的满秩矩阵。要假设的检验为H0:β∈ω,及H1:β∈Rk,我们要先考虑各偏差平方和与然后用下面给出的统计量去检验假设:在零假设为真时,F服从自由度为r与n-k的F分布。我们再在随机方差模型的假设检验下,对σ2进行估计,就会在最大似然估计中有一些改变。在统计量F中,分母的残差平方和替换为而其自由度也由n-k变为n-k+2a。所以,调整后的统计量为在假设H0为真时,服从自由度为r与n-k+2a的F分布。在线性模型下,用最大似然估计对方差进行估计,得到:再运用随机方差模型,经过运算之后,得到:通过随机方差模型的建造,得到对t检验的方差估计,对传统t检验中的方差进行修正,得到:其中使得统计量的自由度由n-2变为n-2+2a。本专利技术的有益效果为:本专利技术为了减少小样本造成的差异筛选误差,利用随机方差模型(RVM)修正的T检验对两组进行比较,计算基因间的显著性水平(P-value)和误判率(FDR),从而得到差异的基因,该方法具有准确度高的特点,适合推广应用。具体实施方式下面结合具体实施方式对本专利技术的技术方案作进一步详细地说明。Pathway的显著性分析——Pathway-AnalysisPathway-Analysis是对基因参与的所有Pathway进行显著性pathway的分析,主要用到fisher精确检验和χ2检验,利用如下的四格表:nf:表示差异基因在pathway中的数目。Nf:表示差异基因的数目。n:表示pathway中含有基因的总数目。N:表示芯片上检测出来基因的总数目。p1:表示差异基因落在pathway中的概率。p2:表示差非异基因不落在pathway中的概率。假设:H0:p1=p2,H1:p1≠p2,在这个假设下分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR。最后得出显著性pathway,完成pathway-Analysis。ENRICHMENT计算公式为:Re=nf/nNf/N,(Re=ENRICHMENT)]]>两分类的差异基因筛选——TwoclassDif在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选。对于两种类型的差异基因,我们通常采用t检验来鉴别差异性。首先设为各类型中样本的平均值,为其方差,样本量分别为n1,n2,检测的统计量为:其中t服从自由度为n1+n2-2的t分布。随机方差模型在于估计t检验中的方差我们选择反伽玛分布作为此方差的方差模型。首先,选择的线性模型为:yij=x′iβj+εij。其中,yij为来自i样本的基因j的标准化表达值,xi为标志不同类型特性的向量,βj为针对特性的系数向量,εij为未知残差,其均值为0,且方差未知。对于每一个基因j,且方差的样本估计值服从反伽玛分布。对βj的假设检验基于给定的基因表达数据。根据线形模型要检验的假设为H0:β∈ω,ω为线性子空间Rk,k表示xi和βj的维数,r≡k-dim(ω)表示受子空间ω约束的线性向量的维数。在Rk空间上,对β的最大似然估计为以及在ω子空间上,对β的最大似然估计为其中Xω代表在子空间ω上的满秩矩阵。要假设的检验为H0:β∈ω,及H1:β∈Rk,我们要先考虑各偏差平方和与然后用下面给出的统计量去检验假设:在零假设为真时,F服从自由度为r与n-k的F分布。我们再在随机方差模型的假设检验下,对σ2进行估计,就会在最大似然估计中有一些改变本文档来自技高网
...

【技术保护点】
一种显著性分析方法,其特征在于,包括以下步骤:步骤1:分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR;最后得出显著性pathway,完成pathway‑Analysis;ENRICHMENT计算公式为:Re=nf/nNf/N,(Re=ENRICHMENT)]]>nf:表示差异基因在pathway中的数目;Nf:表示差异基因的数目;n:表示pathway中含有基因的总数目;N:表示芯片上检测出来基因的总数目;p1:表示差异基因落在pathway中的概率;p2:表示差非异基因不落在pathway中的概率;假设:H0:p1=p2,H1:p1≠p2;步骤2:在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选;对于两种类型的差异基因,采用t检验来鉴别差异性;首先设为各类型中样本的平均值,为其方差,样本量分别为n1,n2,检测的统计量为:其中t服从自由度为n1+n2‑2的t分布;随机方差模型在于估计t检验中的方差选择反伽玛分布作为此方差的方差模型;首先,选择的线性模型为:yij=x′iβj+εij;其中,yij为来自i样本的基因j的标准化表达值,xi为标志不同类型特性的向量,βj为针对特性的系数向量,εij为未知残差,其均值为0,且方差未知;对于每一个基因j,εij~NID(0,σj2)且方差σj2的样本估计值服从反伽玛分布;对βj的假设检验基于给定的基因表达数据;根据线形模型要检验的假设为H0:β∈ω,ω为线性子空间Rk,k表示xi和βj的维数,r≡k‑dim(ω)表示受子空间ω约束的线性向量的维数;在Rk空间上,对β的最大似然估计为以及在ω子空间上,对β的最大似然估计为其中Xω代表在子空间ω上的满秩矩阵;要假设的检验为H0:β∈ω,及H1:β∈Rk,我们要先考虑各偏差平方和与然后用下面给出的统计量去检验假设:在零假设为真时,F服从自由度为r与n‑k的F分布;我们再在随机方差模型的假设检验下,对σ2进行估计,就会在最大似然估计中有一些改变;在统计量F中,分母的残差平方和替换为而其自由度也由n‑k变为n‑k+2a;所以,调整后的统计量为在假设H0为真时,服从自由度为r与n‑k+2a的F分布;在线性模型下,用最大似然估计对方差进行估计,得到:再运用随机方差模型,经过运算之后,得到:通过随机方差模型的建造,得到对t检验的方差估计,对传统t检验中的方差进行修正,得到:其中n=n1+n2,使得统计量的自由度由n‑2变为n‑2+2a。...

【技术特征摘要】
1.一种显著性分析方法,其特征在于,包括以下步骤:步骤1:分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR;最后得出显著性pathway,完成pathway-Analysis;ENRICHMENT计算公式为:Re=nf/nNf/N,(Re=ENRICHMENT)]]>nf:表示差异基因在pathway中的数目;Nf:表示差异基因的数目;n:表示pathway中含有基因的总数目;N:表示芯片上检测出来基因的总数目;p1:表示差异基因落在pathway中的概率;p2:表示差非异基因不落在pathway中的概率;假设:H0:p1=p2,H1:p1≠p2;步骤2:在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选;对于两种类型的差异基因,采用t检验来鉴别差异性;首先设为各类型中样本的平均值,为其方差,样本量分别为n1,n2,检测的统计量为:其中t服从自由度为n1+n2-2的t分布;随机方差模型在于估计t检验中的方差选择反伽玛分布作为此方差的方差模型;首先,选择的线性模型为:yij=x′iβj+εij;其中,yij为来自i样本的基因j的标准化表达值,xi为标志不同类型特性的向量,...

【专利技术属性】
技术研发人员:贺建忠刘坤陈宏伟王永常卫华白万胜郭心怀
申请(专利权)人:塔里木大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1