The invention provides a method for mining gene-to-gene interaction based on Bayesian network reasoning, which includes the following steps: 1. Calculating mutual information between genes, genes and phenotypic traits, and between phenotypic and phenotypic traits by using the method of estimating entropy using Gauss kernel probability density estimator; 2. Constructing a Bayesian network structure learning method including genes by using three-stage dependency analysis; Bayesian network with phenotypic traits nodes; 3. Using Bayesian estimation parameter learning method to obtain conditional probability table among nodes; 4. Using Gibbs sampling Bayesian network approximate reasoning method to calculate conditional probability between different number of genes and phenotypic traits, according to the size of the calculated results, the interaction between genes affecting specific phenotypic traits can be obtained. The invention can help biologists to obtain epistatic gene loci affecting specific phenotypic traits, thereby assisting gene function mining, and provide reference for genetic basis analysis of complex quantitative traits of different species.
【技术实现步骤摘要】
一种基于贝叶斯网络推理的基因间交互关系挖掘方法
本专利技术涉及生物信息
,尤其涉及一种基于贝叶斯网络推理的基因间交互关系挖掘方法。
技术介绍
生物信息学是一门通过综合运用生物学(如结构生物学、生物化学、遗传学等),计算机科学(人工智能、机器学习等),数学(概率与统计等)等多门学科而获知海量生物数据背后奥秘的交叉学科。它综合运用各种算法、软件等对大量生物数据进行分析和处理,进而挖掘隐藏在数据背后的生物学规律。疾病是影响人类健康最重要的因素,疾病可以分为简单疾病和复杂疾病。目前大多数疾病都是属于复杂疾病,比如阿兹海默症、哮喘、帕金森氏症、骨质疏松症、结缔组织病等。虽然复杂疾病不遵循孟德尔遗传规律,但疾病易感性在一定程度上可以由基因因素进行解释,拥有某种易感性基因的人更有可能得病。因此,疾病的致病基因挖掘是目前生物信息学领域研究的热点问题之一。近年来,随着诸多高通量技术的成熟与迅猛发展,产生了海量的生物数据,如基因组、转录组和表型组等。从全基因组数据范围内挖掘影响特定表型性状(如人类疾病、作物产量性状等)的基因位点变得可能,这也成为当今生命科学领域具有挑战的研究课题。全基因组关联研究(Genome-WideAssociationStudy,GWAS)是常用的在全基因组范围内筛检出与表型显著关联的单核苷酸多态性(SingleNucleotidePolymorphism,SNP)的方法。这种方法在单基因病(即符合孟德尔遗传规律)方面效果良好,能够发现一些致病基因,从而揭示此类疾病的遗传机理。然而,这种方法主要侧重于检测主效基因,并不适用于不符合孟德尔遗传规律的 ...
【技术保护点】
1.一种基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,包括以下步骤:步骤1、获取基因表达量和特定表型数据,对其进行正态化处理,利用高斯核概率密度估计量估测熵的方法,分别计算基因与基因间、基因与表型性状以及表型与表型性状间互信息;步骤2、在计算节点间互信息和条件互信息的基础上,利用三阶段依赖分析贝叶斯网络结构学习方法,构建包含基因与表型性状节点的贝叶斯网络结构;步骤3、在步骤2中构建的包含基因与表型性状节点的贝叶斯网络结构网络图的基础上,利用贝叶斯网络参数学习方法学习得到各个节点的条件概率,得到条件概率表;步骤4、在步骤3所得条件概率表的基础上,利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算结果大小得到影响特定表型性状的基因间交互关系。
【技术特征摘要】
1.一种基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,包括以下步骤:步骤1、获取基因表达量和特定表型数据,对其进行正态化处理,利用高斯核概率密度估计量估测熵的方法,分别计算基因与基因间、基因与表型性状以及表型与表型性状间互信息;步骤2、在计算节点间互信息和条件互信息的基础上,利用三阶段依赖分析贝叶斯网络结构学习方法,构建包含基因与表型性状节点的贝叶斯网络结构;步骤3、在步骤2中构建的包含基因与表型性状节点的贝叶斯网络结构网络图的基础上,利用贝叶斯网络参数学习方法学习得到各个节点的条件概率,得到条件概率表;步骤4、在步骤3所得条件概率表的基础上,利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算结果大小得到影响特定表型性状的基因间交互关系。2.根据权利要求1所述的基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,步骤2中的三阶段依赖分析贝叶斯网络结构学习方法的具体包括Drafting,Thickening和Thinning三个步骤。3.根据权利要求2所述的基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,步骤2中的Drafting,Thickening和Thinning三个步骤具体方法为:步骤2.1、Drafting,将基因与表型性状作为网络中节点,利用高斯核概率密度估计量估测熵的方法计算任意两个节点之间的互信息,将互信息大于阈值的节点间的边添加到集合S中,然后根据互信息值的大小对S中节点对进行排序;然后对S中节点对进行循环判断,如果这两个节点之间存在开放路径,则将该节点对加入到集合R中;否则,将该节点对对应的边插入到图中,构造一个初始网络有向图;步骤2.2、Thickening,条件互信息判断,在通过步骤2.1构建初始网络结构图的基础上,对Drafting阶段得到的集合R中节点...
【专利技术属性】
技术研发人员:刘建晓,向宇嘉,田宗霖,郝松林,张小龙,
申请(专利权)人:华中农业大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。