【技术实现步骤摘要】
一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的SNP组合的方法
本专利技术涉及进化算法
,具体涉及一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的SNP组合的方法。
技术介绍
随着高通量基因分型技术的快速发展,越来越多的基于全基因组的单核苷酸多态性(single-nucleotidepolymorphismSNP)的患病组-对照组(case-control)数据涌现出来,其规模往往包含数千个样本与数十万的SNP,研究者们期望利用统计、计算机与生物学的各种方法来分析这些数据,找出与疾病关联的SNP,从而进一步探索疾病潜在的患病模型,对疾病的解释、预防、治疗带来更多的指导,这个研究方向称之为全基因组关联分析(Genome-wideassociationstudyGWAS)。由于上位性(epistasis)的存在,某些SNP只有当与其他一些SNP组合在一起分析时才会表现出与疾病的相关性,为了对GWAS数据进行全面的分析,不得不考虑SNP组合与疾病的相关性,若只考虑两阶的上位性,即考虑每两个SNP与疾病的关系,其搜索空间也高达数百亿,因此设计出 ...
【技术保护点】
1.一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的SNP组合的方法,其特征在于,包括如下步骤:步骤一、对群体和个体记录表进行初始化,并且对群体中的个体进行评价指标的计算;其中,所述评价指标包括:ce、gini、k2、g、cec、ginic、k2c、gc;步骤二、对所述评价指标进行排序融合,通过如下公式计算探索概率er:
【技术特征摘要】
1.一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的SNP组合的方法,其特征在于,包括如下步骤:步骤一、对群体和个体记录表进行初始化,并且对群体中的个体进行评价指标的计算;其中,所述评价指标包括:ce、gini、k2、g、cec、ginic、k2c、gc;步骤二、对所述评价指标进行排序融合,通过如下公式计算探索概率er:er=1-coveragepe式中,numSpecies是当前群体中SNP的去重数目,numPop是群体中个体的数目,l是每个个体的长度,pe为SEE算法的参数;步骤三、如果群体的进化达到终止条件,产生结果;否则,产生一个0~1之间的随机数;如果所述随机数大于所述探索概率,以利用的方法产生新个体,如果所述随机数小于所述探索概率,以探索的方法产生新个体;步骤四、计算所述新个体的评价指标,如果新个体的八个评价指标都大于当前群体中维护的对应评价指标的最大值,则认为新个体对于群体是无用的,则再次进行所述步骤三,如果新个体的八个评价指标中至少有一个小于当前群体中维护的对应评价指标的最大值,则认为新个体对于群体为有用的,用该新个体替换当前群体中最差的个体,则再次进行步骤二。2.如权利要求1所述的基于进化算法在全基因组关联分析的数据中探索与疾病相关的SNP组合的方法,其特征在于,在所述步骤一中,cec的计算方法为:cec(Y,I)=ce(Y|I)-ce(Y|E);式中,ce(Y|I)为所述SNP组合的ce值,E为所述SNP组合中最小ce值的SNP,ce(Y|E)为E的ce值;ginic的计算方法为:ginic(Y,I)=gini(Y|I)-gini(Y|E);式中,gini(Y|I)为所述SNP组合的gini值,E为所述SNP组合中最小gini值的SNP,gini(Y|E)为E的gini值;k2c的计算方法为:式中,k2(Y,I)为所述SNP组合的k2值,E为所述SNP组合中最小k2值的SNP,k2(Y,E)为E的k2值;gc的计算方法为:式中,g(Y,I)为所述SNP组合的g值,E为所述SNP组合中最小g值的SNP,g(Y|E)为E的g值。3.如权利要求2所述的基于进化算法在全基因组关联分析的数据中探索与疾病相关的SNP组合的方法,其特征在于,在所述步骤一中,ce的计算方法为:式中,I为所述SNP组合的一个个体;Y为表型、样本状态;mi为互信息;H为信息熵;C为所述SNP组合的可能取值集合;S为表型可取值的集合;p(c,s)为样本中SNP组合取值为c并且表型取值为s的样本比例;p(c)为样本中SNP组合取值为c的样本比例;gini的计算方法为:式中,p(s)为样本中表型取值为s的样本比例,C为SNP组合的可能取值集合,p(c)为样本中SNP组合取值为c的样本比例;S是表型可取值的集合;P(s|c)为所述SNP组合取值为c的样本中,表型取值为s的样本的比例;k2的计算方法为:式中,C为SNP组合的可能取值集合,SL为SNP组合的长度;C为SNP组合的可能取值集合,S...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。