System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法技术_技高网
当前位置: 首页 > 专利查询>长春大学专利>正文

基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法技术

技术编号:40577682 阅读:7 留言:0更新日期:2024-03-06 17:19
本发明专利技术一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,属于计算机科学技术与生物学的交叉领域;包括一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法。本发明专利技术提出了一种新的方法,用于挖掘数据中蕴含的疾病信息。全基因组关联分析是一种常用的探索复杂疾病的方法,提出高效且准确的检测方法一直是该领域的研究热点之一。本发明专利技术提出的方法基于灰狼优化算法实现,能够有效地在该数据上检测与复杂疾病相关的SNP组合。相比现有的其它算法,该方法具有更高的检测能力。本发明专利技术的研究成果将有助于进一步探索复杂疾病的致病机理,并有助于推进复杂疾病的解释、预防和治疗。

【技术实现步骤摘要】

本专利技术属于计算机科学技术与生物学的交叉领域,尤其涉及一种基于灰狼优化(grey wolf optimizer ,gwo)算法在全基因组关联分析数据上检测与复杂疾病相关snp组合的方法。


技术介绍

1、复杂疾病包含心脏病、高血压、糖尿病等常见疾病,它们是由多基因、多因素共同引起的疾病,它们很难被预防,一旦发现,也很难治愈,很多甚至无法治愈,只能依靠药物来维持,影响着患者的生活。全基因组关联分析(genome-wide association study ,gwas)是一种遗传学研究方法,用于揭示基因与复杂疾病之间的关系,gwas一般针对某一种复杂疾病,收集数千的正常人与患者,通过检测他们dna上几十万的snp(single-nucleotidepolymorphism)的基因型,探索snp与某种复杂疾病之间的相关性,其结果对于复杂疾病致病机理的探索,复杂疾病的预防与治疗都有着重要的意义。然而,gwas数据上普遍存在的上位性现象为我们检测与复杂疾病相关的snp带来了巨大的困难。上位性的原意指的是一种基因相互作用的类型,其中一个基因能够掩盖或支配另一个基因的表现。当在gwas数据上使用统计的方法检测与疾病相关的snp时,上位性表现为,很多snp在单独分析时,其与疾病没有显著的相关性,但当它们与其他的一些snp组合在一起进行分析时,它们与复杂疾病之间产生了非常显著的相关性,这种现象为检测与疾病相关的snp带来了巨大的问题。其原因是,复杂疾病是由多基因、多因素共同引起的,往往snp以组合的方式共同与疾病的发生有关系,上位性普遍存在于gwas数据中,为了充分地分析复杂疾病的致病机理,就需要去分析数据中每两个、每三个(甚至更多)snp与疾病之间的相关性,其计算量随着上位性阶数的升高成指数级增长。因此,提出高效、精确的在gwas数据上检测与复杂疾病相关snp组合的方法是当前的研究热点之一。

2、近年来,针对这一问题,提出了非常多的算法,antepiseeker(ant代表蚂蚁,因为它是一种蚁群算法,epi代表上位性,因为它是在数据中找上位性snp组合,seeker是表示它是一种搜索算法)是一种基于蚁群优化算法检测snp的方法,通过蚁群算法探索与疾病显著相关的snp组合,再对蚁群算法的结果做进一步的穷举搜索,获取结果,它提出了用蚁群优化算法检测snp的方法,证明了基于群智能优化算法检测与复杂疾病相关的snp的可行性。macoed(a multi-objective ant colony optimization algorithm for snp epistasisdetection)是一种多目标启发式优化方法,它将逻辑回归和贝叶斯网络方法结合作为蚁群优化算法的目标函数,其实验结果证明了在群智能优化算法中引入多个目标函数可以达到互补的效果,从而提升群智能算法检测致病snp组合的效率。boost(boolean operation-based screening and testing)是一种快速检测二阶snp组合与疾病关系的方法,它提出了一种基于统计模型检测显著与疾病相关的snp组合的下界函数,这个下界函数可以快速地用穷举的方法检测每一对snp是否有可能与疾病具有显著的相关性,只需要对下界函数的值高于指定阈值的snp组合进行分析就可以在考虑二阶上位性的前提下检测到与疾病相关的snp,boost还提出了一种在计算机中gwas数据的二进制存储与计算的方法,可以提高算法在gwas数据上的计算速度。

3、现有的在gwas数据上检测与复杂疾病相关的snp组合的方法主要有以下缺点:

4、1.多数基于群智能优化算法的检测方法都是基于一个目标函数设计的,而复杂疾病的潜在致病模型往往非常复杂,而一个目标函数无法充分、合理地度量snp组合与疾病之间的相关性;

5、2.绝大多数算法都需要用户指定考虑的上位性的阶数,而复杂疾病的致病机理非常复杂,用户无法预判一个真实的复杂疾病潜在的上位性阶数,为用户的使用带来了不便;

6、3.绝大多数算法在设计的时候着重考虑了二阶上位性的情况,而忽略了高阶(>=3)上位性snp组合,针对算法的实验也只在蕴含二阶上位性snp致病关系的模拟数据上进行,因此绝大多数算法在检测高阶上位性snp组合的能力上表现欠佳,从而导致无法检测出致病的高阶snp组合;

7、4.该领域普遍使用的k2、ce、gini等用于评测snp组合与疾病关系的目标函数,普遍存在“样本分的份数越多,计算结果越相关”的问题,导致评测函数上的不公,阻碍了算法对相关snp组合的检测。


技术实现思路

1、本专利技术目的在于提供一种基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法,以解决在gwas数据上检测与疾病相关的snp需要非常大的计算量的技术问题,本专利技术的宗旨是在同等计算量下,追求检测的精度。

2、为实现上述目的,本专利技术的一种基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法的具体技术方案如下:

3、复杂疾病是由多基因、多因素共同引起的常见疾病,全基因组关联分析(gwas,genome-wide association study)数据蕴含着单核苷酸多态性(snp, single-nucleotidepolymorphism)与复杂疾病之间的相关性,但由于上位性现象的存在,在gwas数据上检测与疾病相关的snp需要非常大的计算量,提出高效、精确的检测算法是当前的研究热点之一。

4、本专利技术提出了一种基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法,针对现有方法存在的缺陷,主要的解决方案如下:

5、1.本专利技术提出的方法是一种基于多个目标函数实现的灰狼优化算法,同时使用k2、ce、gini三个函数作为算法优化的目标,并最后使用g-test检测snp组合与疾病是否显著相关;

6、2.本专利技术提出了一种自动根据数据中的样本数目推测计算过程中最大上位性阶数的方法,而不需要用户指定上位性阶数,算法考虑了小于或等于最大阶数的所有的上位性;

7、3.本专利技术提出了一种基于k2和g-test在高阶snp组合上检测显著相关的snp组合的方法,该方法使算法可以检测到与gwas数据中的疾病显著相关的所有小于或等于最大上位性阶数的snp组合;

8、4.针对k2、ce、gini等函数评测不公的问题,本专利技术提出了一种对计算过程中的列联表进行合并的方案,可以有效地消除函数计算中的不公现象。

9、一种基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法,包括以下步骤,且以下步骤顺次进行:

10、步骤s1:载入全基因组关联分析genome-wide association study ,gwas数据到内存

11、使用与boolean operation-based screening and testing,boost算法类似的基于二进制的存储方式;...

【技术保护点】

1.一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,包括以下步骤,且以下步骤顺次进行:

2.根据权利要求1所述的基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,所述步骤S1中,在内存中使用两个三维数组分别存储患病样本与正常样本的基因型数据,对于每一个数组,第一维度代表数据中不同的SNP,第二维度代表对应的SNP不同的基因型,第三个维度代表对应SNP与其对应的基因型下有哪些样本。

3.根据权利要求1所述的基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,所述步骤S8具体包括以下步骤:

4.根据权利要求1所述的基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,所述步骤S2中,最大上位性阶数的计算方法如式(1)所示:

5.根据权利要求1所述的基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,所述步骤S6中,根据式(7)的计算结果进行头狼的选择:

6.根据权利要求1所述的基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,所述步骤S7中,根据公式8计算该SNP组合与疾病状态之间关系的显著性,如果其显著性超过用户指定的阈值,保存这个组合作为算法的输出结果之一;

...

【技术特征摘要】

1.一种基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法,其特征在于,包括以下步骤,且以下步骤顺次进行:

2.根据权利要求1所述的基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法,其特征在于,所述步骤s1中,在内存中使用两个三维数组分别存储患病样本与正常样本的基因型数据,对于每一个数组,第一维度代表数据中不同的snp,第二维度代表对应的snp不同的基因型,第三个维度代表对应snp与其对应的基因型下有哪些样本。

3.根据权利要求1所述的基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法,其特征在于,所述步骤s8具体包括以下步骤...

【专利技术属性】
技术研发人员:孙立岩边靖雯姜林青辛翌郑琳宣
申请(专利权)人:长春大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1