一种配对互作基因检测方法及预测模型技术

技术编号:16456834 阅读:102 留言:0更新日期:2017-10-25 21:05
本发明专利技术公开了一种配对互作基因检测方法及预测模型,检测方法包括以下步骤:对给定的数据集{Yi,Xij},首先对每个基因表达值进行秩规格化,得到规格化后的数据矩阵{Yi,Rij},即对于任一基因j,将其表达值按从小到大顺序排列,然后用每个表达值的排列位置代替初始表达值;对任意两个基因p和基因q采用abs模式进行转换,获得转换后的数据集{Yi,Zis};abs模式:Zis=|Rip–Riq|;其中i=1,2,…,n;p=1,2,…,m;q=1,2,…,m;p≠q;s=1,2,…,m(m‑1)/2;n为数据集中的样本数,m为数据集中的基因数;计算每个变量Zis与表型Yi之间的t值,根据t值判断两个基因之间的互作效应。本发明专利技术可有效提高模型预测精度。

A pair interaction gene detection method and prediction model

The invention discloses a pairing interaction method and prediction of gene detection model, detection method comprises the following steps: for a given data set {Yi, Xij}, first for each gene expression values were normalized to obtain data matrix rank, {Yi, normalized Rij}, i.e. for any gene J, its expression value from small to large order, then each expression value of the arrangement position instead of the initial expression value; conversion using ABS mode on any of the two genes P and Q, to obtain the converted data set {Yi, Zis}; ABS: Zis = |Rip - Riq| mode; I = 1,2,... N; P = 1,2,... M; q = 1,2,... M, P = q; s = 1,2,... M, /2 (M 1); n is the number of samples in the dataset, the M dataset for the number of genes; calculation between each variable Zis and phenotype of Yi T, according to the T value to determine the interaction effect between the two gene. The invention can effectively improve the prediction accuracy of the model.

【技术实现步骤摘要】
一种配对互作基因检测方法及预测模型
本专利技术涉及基因芯片技术,特别是一种配对互作基因检测方法及预测模型。
技术介绍
基因芯片技术也称DNA微阵列(Microarray),是一种从转录组水平检测基因表达情况的高通量技术。基因芯片技术的出现,使得从大规模基因表达水平上探究复杂疾病机理成为可能。基因选择是芯片数据分析的重要任务,基因选择即从上万个表达基因中筛选出与肿瘤表型相关的信息基因。芯片技术能一次检测上万个基因的表达量,但并不是每个基因都与肿瘤表型相关,过多的无关、冗余基因可导致过拟合、维数灾等问题,且不利于肿瘤发病机制研究。通过基因选择剔除无关基因,选择一个相关子集至少有以下三个优点:1)提高分类(诊断)模型的泛化性;2)基于少量的基因实施高精度诊断,可以大幅度降低诊断成本,是实现临床应用的基础;3)选择与肿瘤表型相关的基因有利于进一步实现肿瘤机理解析。信息基因选择对临床诊断、药物靶点筛选以及疾病机理研究等意义重大。大量研究表明,基于多基因的功能通道变异而非单基因变异是导致复杂疾病的主要原因。传统单基因过滤方法(例如t测验[1])仅能筛选与疾病相关的单效应基因,无法检测到与疾病相关的互作基因。两两基因配对互作是基因互作的最基本形式,现今已有大量研究致力于筛选与复杂疾病关联的配对互作基因,图1-图4展示了典型的配对互作基因情形:单独基于基因A(geneA)无法有效区分得病样本与健康样本,单独基于基因B(geneB)同样无法有效区分得病样本与健康样本,当同时考虑geneA与geneB时可有效区分得病样本与健康样本。配对互作基因检测方法可分为两大类:第一类为基于互信息的非转换策略,如基于系统树的方法(Dendrogram-basedmethod)[2]与三变量最大信息系数法(MIC(X1;X2;Y))[3]。对基因的连续表达值离散化是互信息方法面临的主要问题,基于系统树的方法采用系统进化树方法进行离散化,但易导致信息丢失,并不能检测到典型的配对互作基因;三变量最大信息系数法基于三维寻优方法计算三变量互信息,可检测配对互作基因,但属于计算密集型算法,计算效率过高,并且其检测到的互作基因并不能直接提高预测模型精度。第二类为转换策略,如doublets[4]。对基因p与基因q,doublets方法引入一个新的变量Z代替两个初始基因表达值,共有四种转换模式:sum模式:Zis=Xip+Xiq(1)diff模式:Zis=Xip–Xiq(2)mul模式:Zis=Xip×Xiq(3)sign模式:将包含n个样本,m个基因的基因表达数据定义为{Yi,Xij},i=1,2,…,n;j=1,2,…,m。Xij为第i个样本的第j个基因的表达值,Yi表示第i个样本的疾病表型(可用1表示不得病,2表示得病)。经表达值转化后,计算新变量Z与Y之间的相关性。该方法具有计算效率高的优点,但不能有效检测典型的配对互作基因。
技术实现思路
本专利技术旨在提供一种计算效率高的配对互作基因检测方法及预测模型,有效提高检测精度。为解决上述技术问题,本专利技术所采用的技术方案是:一种配对互作基因检测方法,包括以下步骤:1)对给定的数据集{Yi,Xij},首先对每个基因表达值进行秩规格化(即对于任一基因j,将其表达值按从小到大顺序排列,然后用每个表达值的排列位置代替初始表达值),得到规格化后的数据矩阵{Yi,Rij};2)对任意两个基因p和基因q采用abs模式进行转换,获得转换后的数据集{Yi,Zis};abs模式:Zis=|Rip–Riq|;其中i=1,2,…,n;p=1,2,…,m;q=1,2,…,m;p≠q;s=1,2,…,m(m-1)/2;n为数据集中的样本数,m为数据集中的基因数;Rip表示第i个样本的第p个基因排秩转换后的表达值;Riq表示第i个样本的第q个基因排秩转换后的表达值;3)基于t测验方法计算每个变量Zis与表型Yi之间的t值,根据t值对应的概率值p值判断两个基因之间的互作效应。本专利技术中,对应p值小于0.05表示某一对基因互作达到显著水平;p值小于0.01表示某一对基因互作达到极显著水平。相应地,本专利技术还提供了一种配对互作基因预测模型,包括分类器,且该分类器的输入变量为经abs模式转换后得到:第i个样本的第p个基因排秩转换后的表达值Rip和第i个样本的第q个基因排秩转换后的表达值Riq;其中,abs模式:Zis=|Rip–Riq|;其中i=1,2,…,n;p=1,2,…,m;q=1,2,…,m;p≠q;s=1,2,…,m(m-1)/2;n为数据集中的样本数,m为数据集中的基因数;Rip表示第i个样本的第p个基因排秩转换后的表达值;Riq表示第i个样本的第q个基因排秩转换后的表达值。与现有技术相比,本专利技术所具有的有益效果为:本专利技术基于abs模式转换,可有效检测到与疾病关联的配对互作基因,并且因为在重要性评价时,采用的是简单的t测验方法,具有计算效率高的优点。另外,以经过abs模式转换后的新的变量可有效提高模型预测精度。附图说明图1-图4表示典型的配对互作基因模式(黑色为病例样本,灰色为健康样本);图5abs模式筛选的最强互作基因对;图6MIC(X1;X2;Y)方法筛选的最强互作基因对;图7sum模式筛选的最强互作基因对;图8diff模式筛选的最强互作基因对;图9mul模式筛选的最强互作基因对;图10sign模式筛选的最强互作基因对;图11Dendrogram-based方法筛选的最强互作基因对。具体实施方式本专利技术基于转换策略提出了一种新的配对互作基因快速检测方法。对给定的数据集{Yi,Xij},但基因芯片数据存在噪音,假设有500个样本,对某个基因而言,其它样本的表达值可能都是200左右,但有一个样本的表达值达到1000,所以首先对每个基因表达值进行秩规格化[5],得到规格化后的数据矩阵{Yi,Rij}。例如对基因j,将其表达值按从小到大顺序排列,然后用每个表达值的排列位置代替初始表达值。然后对任意两两基因(假设为基因p与基因q)采用如下所示的abs模式进行转换:abs模式:Zis=|Rip–Riq|(5)式(5)中,i=1,2,…,n;p=1,2,…,m;q=1,2,…,m;p≠q;s=1,2,…,m(m-1)/2。此时可获得转换后的数据集{Yi,Zis}。基于t测验方法可以计算每个变量Z与表型Y之间的t值。若对应的概率值(p值)小于0.05则表示Z与Y之间的关联显著,且对应t值越大,表示Z与Y之间的关联越强,同样表示对应的两个基因之间具有强的互作效应。p值是在做t测验时基于给定自由度下的t分布自动计算出来,规定p值小于0.05为显著水平,表示配对基因有互作效应的概率为95%,若p值小于0.01表示极显著水平,指配对基因有互作效应的概率为99%。基于t值排序,可获得具有强互作效应的配对互作基因。本专利技术发现,在构建预测模型时,若将互作基因的初始表达值(即Xp与Xq)作为分类器的输入变量,并不能获得较好的预测精度。本专利技术提出,在构建预测模型时,需将经abs模式转换后的变量(Zs)作为分类器输入变量,可有效提高模型的预测精度。假设,检测到k对配对互作基因,不转换时有2×k个变量作为模型输入,转换策略有k个变量作为模型输入。将本专利技术的方法本文档来自技高网
...
一种配对互作基因检测方法及预测模型

【技术保护点】
一种配对互作基因检测方法,其特征在于,包括以下步骤:1)对给定的数据集{Yi,Xij},首先对每个基因表达值进行秩规格化,得到规格化后的数据矩阵{Yi,Rij};2)对任意两个基因p和基因q采用abs模式进行转换,获得转换后的数据集{Yi,Zis};abs模式:Zis=|Rip–Riq|;其中i=1,2,…,n;p=1,2,…,m;q=1,2,…,m;p≠q;s=1,2,…,m(m‑1)/2;n为数据集中的样本数,m为数据集中的基因数;Rip表示第i个样本的第p个基因排秩转换后的表达值;Riq表示第i个样本的第q个基因排秩转换后的表达值;3)基于t测验方法计算每个变量Zis与表型Yi之间的t值,根据t值对应的概率值p值判断两个基因之间的互作效应。

【技术特征摘要】
1.一种配对互作基因检测方法,其特征在于,包括以下步骤:1)对给定的数据集{Yi,Xij},首先对每个基因表达值进行秩规格化,得到规格化后的数据矩阵{Yi,Rij};2)对任意两个基因p和基因q采用abs模式进行转换,获得转换后的数据集{Yi,Zis};abs模式:Zis=|Rip–Riq|;其中i=1,2,…,n;p=1,2,…,m;q=1,2,…,m;p≠q;s=1,2,…,m(m-1)/2;n为数据集中的样本数,m为数据集中的基因数;Rip表示第i个样本的第p个基因排秩转换后的表达值;Riq表示第i个样本的第q个基因排秩转换后的表达值;3)基于t测验方法计算每个变量Zis与表型Yi之间的t值,根据t值对应的概率值p值判断两个基因之间的互作效应。2.根据权利要求2所述的配对互作基因检测方法,其特征在于,对应p值小...

【专利技术属性】
技术研发人员:陈渊袁哲明杨晶晶谭泗桥邢鹏伟
申请(专利权)人:湖南农业大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1