一种结合随机森林和Relief-F的全基因组SNP位点分析方法技术

技术编号:11207816 阅读:373 留言:0更新日期:2015-03-26 16:29
本发明专利技术公开了一种结合随机森林和Relief-F的全基因组SNP位点分析方法,首先应用广义线性模型对SNP位点进行初步筛选,接着利用Relief-F处理SNP交互作用的能力,预先将存在交互作用的SNP位点排到队列前面,然后将队列后面的SNP位点利用随机森林进行排名,以识别单个SNP位点的边缘作用,这样得到一个SNP的排名队列,去掉排在队列末端的SNP位点之后,重新应用Relief-F和随机森林进行处理,如此迭代,最后得到SNP位点的排序结果。本发明专利技术综合考虑单个SNP位点的作用和位点之间的交互作用,能处理全基因组SNP数据,进而发现与复杂疾病相关的SNP位点,对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。

【技术实现步骤摘要】
一种结合随机森林和Relief-F的全基因组SNP位点分析方法
本专利技术属于数据处理
,基于全基因组单核苷酸多态性(SNP,SingleNucleotidePolymorphisms)数据进行全基因组关联研究,识别与疾病相关的SNP位点,可用于阐释复杂疾病的致病机理、疾病风险预测以及生物药物研制。
技术介绍
生物信息学是一门生命科学和计算机科学相结合的新兴学科,研究生物信息的采集、处理、存储、传播,分析和解释等,通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。全基因组关联研究(GWAS,Genome-WideAssociationStudies)的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本,比较全基因组范围内SNP位点在病例组和对照组中的频率差异,若某个SNP位点在病例组中出现的频率明显高于或低于对照组,则认为该SNP位点与复杂疾病存在着某种关联。与复杂疾病相关的SNP位点的发现和识别对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。当前,通过GWAS已经发现了很多与复杂疾病相关的SNP位点,但是发现的相关SNP位点中只有少数能够增加复杂疾病的致病风险,而且还有一些已经被生物实验证明的与复杂疾病相关的SNP位点没有被GWAS识别出来。因此,还存在着大量未被发现的SNP。这种结果主要由如下两方面的原因所造成:(1)目前GWAS在建模时大多只考虑单个SNP位点与复杂疾病的关联关系,忽略了SNP位点可以通过与其它SNP位点或环境因素共同作用影响复杂疾病的情况。(2)罕见SNP位点的识别难度大,这类SNP位点在正常人群中出现的频率在1%-5%之间,在样本数量非常少的情况下很难通过GWAS直接识别出来。为克服GWAS在与复杂疾病相关的SNP位点识别上的不足,研究人员开始关注SNP位点之间的交互作用,在方法层面上进行了更加深入的研究,提出了许多方法。这些方法可概括为两大类,即基于模型的方法和模型无关方法。基于模型的方法预先在基因组和表现型之间定义一种统计模型,然后拟合数据到假设的模型,得到显著的SNP位点,但是该类方法难以处理高维的GWAS数据,面临着“维数灾难”问题。模型无关方法为了有效处理高维SNP数据,通常采用一些启发式信息指导搜索,而不用提前对数据和模型作出假设,该类方法只是通过统计技术测试每个可能存在的交互作用的SNP组,但没有某种单一的方法能准确地找到大部分与复杂疾病相关的SNP位点。上述两类常用的方法中,有些只是识别单个SNP位点的增加复杂疾病致病风险作用,有些则侧重于SNP位点间的交互作用,大多没有根据疾病的复杂生物机理,综合考虑两者的共同作用。针对当前研究存在的这一问题,本专利技术提出了一种结合随机森林和Relief-F的全基因组SNP位点分析方法。随机森林是一种集成学习方法,通过将多个决策树进行集成来完成模式识别的任务,其中决策树属性结点划分的统计信息可用来进行特征的重要性排名,如可用置换重要性或基尼(Gini)重要性对特征排序。用随机森林对SNP高维数据集进行处理时,在识别单个SNP位点上有突出的优势,但处理特征之间的交互作用有所欠缺。Relief-F方法利用假设间隔最大化理论进行特征排序,可以用来对SNP位点进行排名,该方法能够很好地识别SNP位点的交互作用,但是易受噪声数据的影响,对单个位点的识别作用不理想。本专利技术将随机森林和Relief-F有机结合起来,发挥各自的优势,从而达到同时识别单个位点和多个位点交互作用的目的,提高与复杂疾病相关的SNP位点的识别能力。
技术实现思路
针对现有技术的不足,本专利技术旨在提出一种结合随机森林和Relief-F的全基因组SNP位点分析方法,兼顾单个SNP位点的增加复杂疾病风险作用与多个SNP位点之间的交互作用,从方法层面保证了罕见与复杂疾病相关的SNP位点的识别效能,为疾病的生物学病理研究提供基础。为了实现上述目的,本专利技术采取如下技术方案:一种结合随机森林和Relief-F的全基因组SNP位点分析方法,包括如下步骤:S1、对样本数据进行预处理:如果样本数据是AA这种碱基对形式,则对每个SNP位点进行编码,编码成最小等位基因的个数;如果最小等位基因为a,那么基因型AA、Aa、aa分别编码成0、1、2,去掉最小等位基因频率小于设定值的SNP位点;S2、设单核苷酸多态SNP的个数为m,设置进入下一阶段处理的SNP个数的上限为Lu;若m<=Lu,则直接执行步骤S3,若m>Lu,则对每个SNP位点xj(j=1,2,...,m)与样本类别变量y建立广义线性模型以评估单个SNP的作用;建立的广义线性模型如下:其中g函数为logit函数,β为模型系数,样本X=(x1,x2,...,xm)T;根据广义线性模型建模的结果,通过对每个SNP位点对应的p值进行递增排序,筛选得到前Lu个SNP位点构成集合S,p值是统计学假设检验方法得到的概率值,表示变量的显著性;设置SNP位点个数m=Lu并执行步骤S3;S3、对SNP位点集合进行后向缩减,其中设置每次迭代时过滤SNP的比例为q,迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r>q),SNP位点的排名结果队列记为SNPrank,初始化SNP位点个数为u=m;单次迭代的过程如下:3.1)利用Relief-F方法对u个SNP位点进行权重排名,得到降序的u个SNP位点;3.2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名;3.3)将排名末尾个SNP位点存到SNPrank队列的头部,并根据对u进行更新;S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部,这样就得到了完整的SNP位点排名;S5、取SNPrank前k个SNP位点为显著SNP位点。需要说明的是,步骤S1中所述设定值为0.05,即去掉最小等位基因频率小于0.05的SNP位点。需要说明的是,步骤3.1)具体实现过程为:首先初始化每个SNP位点的权重为0,然后迭代n次,n设置为样本数目,每次选择一个样本X,计算得到与这个样本类别标签一致的最近邻样本H,同时计算得到与这个样本类别标签不一样的最近邻样本M,然后对每个位点gi(i=1,2,...,u)用如下公式更新权重:W[gi]=W[gi]-diff(gi,X,H)/u+diff(gi,X,M)/u;其中diff函数表示两个样本在一个位点上的间距,如果样本P的SNP位点gi和样本Q的SNP位点gi的基因型相同,则diff(gi,P,Q)=1,否则为0。需要说明的是,步骤3.2)中所述置换重要性值按照如下公式进行计算:其中,I(A)表示SNP位点A的置换重要性值,N是所有样本的数目,T是树的总数;i是样本索引,i=1,2,...,N,j是决策树索引,j=1,2,...,T,Xi表示第i个样本,yi表示第i个样本真实的类别,Vj(Xi)表示第i个样本在第j棵树的预测值,tij表示第i个样本是否是第j棵树的袋外样本,取1或者0,其中1表示“是”,0表示“否”;表示第j棵树的SNP位点A重新排列后的第i个样本;F(C)是一个指示函数,当条件C满足时取值为1,否则取值为0;Nj本文档来自技高网
...
一种结合随机森林和Relief-F的全基因组SNP位点分析方法

【技术保护点】
一种结合随机森林和Relief‑F的全基因组SNP位点分析方法,其特征在于,所述方法包括如下步骤:S1、对样本数据进行预处理:如果样本数据是AA这种碱基对形式,则对每个SNP位点进行编码,编码成最小等位基因的个数;如果最小等位基因为a,那么基因型AA、Aa、aa分别编码成0、1、2,去掉最小等位基因频率小于设定值的SNP位点;S2、设单核苷酸多态SNP的个数为m,设置进入下一阶段处理的SNP个数的上限为Lu;若m<=Lu,则直接执行步骤S3,若m>Lu,则对每个SNP位点xj(j=1,2,...,m)与样本类别变量y建立广义线性模型以评估单个SNP的作用,建立的广义线性模型如下:g(E(y|X))=β0+Σj=1mβjxj;]]>其中g函数为logit函数,β为模型系数,样本X=(x1,x2,...,xm)T;根据广义线性模型建模的结果,通过对每个SNP位点对应的p值进行递增排序,筛选得到前Lu个SNP位点构成集合S,所述p值是统计学假设检验方法得到的概率值,表示变量的显著性;设置SNP位点个数m=Lu并执行步骤S3;S3、对SNP位点集合进行后向缩减,其中设置每次迭代时过滤SNP的比例为q,迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r>q),SNP位点的排名结果队列记为SNPrank,初始化SNP位点个数为u=m;单次迭代的过程如下:3.1)利用Rel ief‑F方法对u个SNP位点进行权重排名,得到降序的u个SNP位点;3.2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名;3.3)将排名末尾个SNP位点存到SNPrank队列的头部,并根据对u进行更新;S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部,这样就得到了完整的SNP位点排名;S5、取SNPrank前k个SNP位点为显著SNP位点。...

【技术特征摘要】
1.一种结合随机森林和Relief-F的全基因组SNP位点分析方法,其特征在于,所述方法包括如下步骤:S1、对样本数据进行预处理:如果样本数据是碱基对形式,则对每个SNP位点进行编码,编码成最小等位基因的个数;如果最小等位基因为a,那么基因型AA、Aa、aa分别编码成0、1、2,去掉最小等位基因频率小于设定值的SNP位点;S2、设单核苷酸多态SNP的个数为m,设置进入下一阶段处理的SNP个数的上限为Lu;若m<=Lu,则直接执行步骤S3,若m>Lu,则对每个SNP位点xj与样本类别变量y建立广义线性模型以评估单个SNP的作用,建立的广义线性模型如下:其中g函数为logit函数,β为模型系数,样本X=(x1,x2,...,xm)T,xj中j的取值范围为j=1,2,...,m;根据广义线性模型建模的结果,通过对每个SNP位点对应的p值进行递增排序,筛选得到前Lu个SNP位点构成集合S,所述p值是统计学假设检验方法得到的概率值,表示变量的显著性;设置SNP位点个数m=Lu并执行步骤S3;S3、对SNP位点集合进行后向缩减,其中设置每次迭代时过滤SNP的比例为q,迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r,r的值大于q,SNP位点的排名结果队列记为SNPrank,初始化SNP位点个数为u=m;单次迭代的过程如下:3.1)利用Relief-F方法对u个SNP位点进行权重排名,得到降序的u个SNP位点;3.2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名;3.3)将排名末尾个SNP位点存到SNPrank队列的头部,并根据对u进行更新;S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部,这样就得到了完整的SNP位点排名;S5、取SNPrank前k个SNP位点为显著S...

【专利技术属性】
技术研发人员:杨利英黎成殷黎洋张军英袁细国
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1