一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法技术

技术编号:26069462 阅读:56 留言:0更新日期:2020-10-28 16:42
本发明专利技术涉及一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,包括S1‑S4四个步骤。首先使用条件互信息计算,并经过扩张、收缩和检查一致性三个阶段,得到每个节点的马尔科夫毯,将每个节点的马尔科夫毯作为其候选父节点集,构建每个节点的所有子结构。然后利用可分解的贝叶斯网络打分函数α‑BIC,求得每个子结构的分数。利用可分解贝叶斯网络打分函数的性质,删除一些子结构,得到每个节点筛选后的候选父集及其贝叶斯网络打分。最后根据这些候选父集和分数将构建贝叶斯网络转换成整数线性规划问题,并使用分支定界和割平面两种方法,快速求解得到最高分数的全局最优的包括SNP位点和表型性状的贝叶斯网络,进而实现更有效、更准确的上位性检测。

【技术实现步骤摘要】
一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法
本专利技术涉及生物信息
,具体为一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法。
技术介绍
随着现代医疗水平的提高和分子生物学技术的不断发展,目前影响人类健康的疾病主要包括孟德尔遗传病和复杂疾病。孟德尔遗传病是单基因疾病,通过定位克隆的方法和孟德尔遗传定律,可以很容易确定相关遗传基因以及阐明其遗传方式。然而复杂疾病却远比孟德尔遗传病复杂,从生物遗传学的角度看,决定生物复杂性状的遗传因素主要包括三个方面:基因主效应、基因与基因之间的相互作用和基因与环境之间的相互作用。非孟德尔遗传病的复杂性主要体现在表型复杂、遗传模式复杂以及致病机理复杂。复杂疾病是由多个基因和环境因素共同作用的结果,其病因非常复杂。众所周知,复杂疾病占人类疾病的80%以上,包括癌症、2型糖尿病、哮喘、糖尿病、高血压、老年痴呆症、类风湿性关节炎、精神分裂症、心脏病、心血管疾病、肥胖、肿瘤等,这些疾病极大的困扰了的健康。因此,需要研究新的方法来阐明复杂疾病的致病原因及其遗传机制。全基因组关联研究(GWAS,Genome-WideAssociationStudy)是常用的在全基因组范围内筛检出与表型显著关联的单核苷酸多态性(SNP,SingleNucleotidePolymorphism)的方法。其基本原理为在一定数量的病例/对照样本中,比较全基因组范围内SNP位点的频率差异。但该方法主要侧重于检测主效基因,利用该方法尽管可以找到很多与表型相关的位点,但是也只能解释极少数的遗传变异。造成这种结果一个最重要的原因是忽略了基因与基因之间的相互作用,即上位性。目前研究者们提出了多种上位性检测方法。然而,这些方法假阳性率高,且在全基因组数据范围中存在计算困难、算法时间复杂度高、效率低下等问题,导致不能准确高效地检测出与表型性状相关联的SNP位点及其组合。
技术实现思路
本专利技术的目的在于提供一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,至少可以解决现有技术中的部分缺陷。为实现上述目的,本专利技术实施例提供如下技术方案:一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,S1,将基因型数据中SNP用0/1/2形式的数据表示,同时将基因型数据中表型Class用0/1形式的数据表示,并将SNP和Class看成构成贝叶斯网络的节点,在SNP中,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型,在表型Class中,1表示该样本患病,0表示该样本未患病;S2,通过计算互信息和条件互信息,利用扩张、收缩、检查一致性三个阶段得到每个节点的马尔科夫毯,将每个节点的马尔科夫毯中的节点作为该节点的候选父节点;S3,在得到的每个节点的候选父节点中,对于特定节点和其所有的候选父节点构成的子结构,利用可分解贝叶斯网络打分函数计算所有子结构的分数,然后利用贝叶斯网络可分解打分函数的四个性质删除一些候选父集,得到不同节点筛选后的候选父集;S4,基于每个节点的候选父集及其贝叶斯网络打分,将构建SNP位点和表型性状的贝叶斯网络转换成求满足约束条件的整数线性规划问题,然后利用割平面法和分支定界两种整数线性规划求解方法得到全局最优的贝叶斯网络。进一步,在进行所述S2步骤前,设将挖掘影响表型性状的k-locus上位性位点,SNP和Class的数量为n,对于每个SNP节点,其初始的马尔科夫毯节点集共有种情况,每种情况的初始马尔科夫毯包含Class和其它k-2个SNP,对于Class节点,其初始的马尔科夫毯节点集共有种情况,每种情况的初始马尔科夫毯包含其它k-1个SNP。进一步,在所述S2步骤中,扩张阶段具体为:对于一个目标节点的任意一种初始马尔科夫毯情况,计算任意节点与当前目标节点在该初始马尔科夫毯条件下的条件互信息,若条件互信息小于阈值,将节点加入到马尔科夫毯中,不断重复此过程,直到马尔科夫毯内节点不再增加为止,对目标节点的所有初始马尔科夫毯都进行上述计算过程,并对计算得到的所有马尔科夫毯求并集,得到该目标节点最终的马尔科夫毯。进一步,在所述S2步骤中,收缩阶段具体为:在该阶段主要是去除错误的马尔科夫毯节点,对于目标节点,去除其马尔科夫毯内的任意一个节点,计算该节点与目标节点在去除后的马尔科夫毯的条件下的互信息,若互信息值大于阈值,则将该节点删除,如条件互信息小于阈值,则保留该节点,直到没有可删除的节点为止。进一步,在所述S2步骤中,检查一致性阶段具体为:若SNP1的马尔科夫毯内有SNP2,则SNP2的马尔科夫毯内也应当有SNP1;若SNP2的马尔科夫毯内没有SNP1,将SNP1的马尔科夫毯内的SNP2删除;通过检查一致性,可以进一步的精简不同的节点的马尔科夫毯,进而缩小候选父节点的个数。进一步,在所述S3步骤中,通过使用更适合上位性数据处理的可分解贝叶斯网络打分函数α-BIC来对子结构进行打分。进一步,在所述S3步骤中,使用可分解贝叶斯网络打分函数的四个性质,删除不同节点的候选父集,从而减少每个节点的候选父集个数,提高后续整数线性规划算法求解的效率。进一步,在所述S4步骤中,将构建贝叶斯网络转换成整数线性规划问题,即目标函数为使整个网络的贝叶斯网络分数最高,约束条件为每个节点只能选择一个父集,且所选父集构成的网络不能存在环,通过将构建贝叶斯网络转换成整数线性规划问题,能够避免陷入局部最优,进而得到全局最优的网络结构。进一步,在所述S4步骤中,所述割平面法是将不满足约束条件的解,转换为约束条件加入到原问题的约束条件中,直到找到满足条件的解为止。进一步,在所述S4步骤中,所述分支定界方法是将非整数解分为向上取整和向下取整两个分支,并将其分别加入到约束条件中构成两个子问题,然后分别进行求解。不断重复此过程,直到找到整数解为止。与现有技术相比,本专利技术的有益效果是:一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,通过SNP位点和表型性状Class的贝叶斯网络结构,进而挖掘上位性位点的方法,首先使用条件互信息计算,并经过扩张、收缩和检查一致性三个阶段,得到每个节点的马尔科夫毯,将每个节点的马尔科夫毯作为其的候选父节点集,构建每个节点所有候选父集,即子结构,利用可分解的贝叶斯网络打分函数α-BIC,求得每个子结构的分数,然后利用可分解打分函数的性质,删除一些子结构,得到每个节点筛选后的候选父集及其贝叶斯网络打分,最后根据这些候选父集和分数将构建贝叶斯网络转换成整数线性规划问题,并使用分支定界和割平面两种方法,快速求解得到最高分数的全局最优的贝叶斯网络,通过对得到网络进行分析,快速准确的获取到影响表型性状的上位性基因位点,辅助基因功能挖掘,进而获得更有效、更准确的上位性检测算法,对复杂疾病致病机理的发现、诊断、治疗和预防有着非常重要的作用。附图说明图1为本专利技术实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法的流程示意图;图2为本专利技术实施例提供的一种整数线性规划优化贝叶斯网络的上位性位点挖掘本文档来自技高网
...

【技术保护点】
1.一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,其特征在于,包括如下步骤:/nS1,将基因型数据中SNP用0/1/2形式的数据表示,同时将基因型数据中表型Class用0/1形式的数据表示,并将SNP和Class看成构成贝叶斯网络的节点,在SNP中,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型,在表型Class中,1表示该样本患病,0表示该样本未患病;/nS2,通过计算互信息和条件互信息,利用扩张、收缩、检查一致性三个阶段得到每个节点的马尔科夫毯,将每个节点的马尔科夫毯中的节点作为该节点的候选父节点;/nS3,在得到的每个节点的候选父节点中,对于特定节点和其所有的候选父节点构成的子结构,利用可分解贝叶斯网络打分函数计算所有子结构的分数,然后利用贝叶斯网络可分解打分函数的四个性质删除一些候选父集,得到不同节点筛选后的候选父集;/nS4,基于每个节点的候选父集及其贝叶斯网络打分,将构建SNP位点和表型性状的贝叶斯网络转换成求满足约束条件的整数线性规划问题,然后利用割平面法和分支定界两种整数线性规划求解方法得到全局最优的贝叶斯网络。/n

【技术特征摘要】
1.一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,其特征在于,包括如下步骤:
S1,将基因型数据中SNP用0/1/2形式的数据表示,同时将基因型数据中表型Class用0/1形式的数据表示,并将SNP和Class看成构成贝叶斯网络的节点,在SNP中,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型,在表型Class中,1表示该样本患病,0表示该样本未患病;
S2,通过计算互信息和条件互信息,利用扩张、收缩、检查一致性三个阶段得到每个节点的马尔科夫毯,将每个节点的马尔科夫毯中的节点作为该节点的候选父节点;
S3,在得到的每个节点的候选父节点中,对于特定节点和其所有的候选父节点构成的子结构,利用可分解贝叶斯网络打分函数计算所有子结构的分数,然后利用贝叶斯网络可分解打分函数的四个性质删除一些候选父集,得到不同节点筛选后的候选父集;
S4,基于每个节点的候选父集及其贝叶斯网络打分,将构建SNP位点和表型性状的贝叶斯网络转换成求满足约束条件的整数线性规划问题,然后利用割平面法和分支定界两种整数线性规划求解方法得到全局最优的贝叶斯网络。


2.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,其特征在于,在进行所述S2步骤前,设将挖掘影响表型性状的k-locus上位性位点,SNP和Class的数量为n,对于每个SNP节点,其初始的马尔科夫毯节点集共有种情况,每种情况的初始马尔科夫毯包含Class和其它k-2个SNP,对于Class节点,其初始的马尔科夫毯节点集共有种情况,每种情况的初始马尔科夫毯包含其它k-1个SNP。


3.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,其特征在于,在所述S2步骤中,扩张阶段具体为:对于一个目标节点的任意一种初始马尔科夫毯情况,计算任意节点与当前目标节点在该初始马尔科夫毯条件下的条件互信息,若条件互信息小于阈值,将节点加入到马尔科夫毯中,不断重复此过程,直到马尔科夫毯内节点不再增加为止,对目标节点的所有初始马尔科夫毯都进行上述计算过程,并对计算得到的所有马尔科夫毯求并集,得到该目标节点最终的马尔科夫毯。


4.如权利要求1所述的一种整数线性规划优化贝叶斯网络的上位性位点挖掘方法,其特征在于,在所述S2步骤中,收...

【专利技术属性】
技术研发人员:刘建晓杨轩杨晨雷继萌
申请(专利权)人:华中农业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1