一种基于贝叶斯网络推理的基因间交互关系挖掘方法技术

技术编号:20489667 阅读:44 留言:0更新日期:2019-03-02 21:16
本发明专利技术提供一种基于贝叶斯网络推理的基因间交互关系挖掘方法,包括以下步骤:1、利用高斯核概率密度估计量估测熵的方法,计算基因与基因间、基因与表型性状间以及表型与表型性状间互信息;2、利用三阶段依赖分析贝叶斯网络结构学习方法,构建包含基因与表型性状节点的贝叶斯网络;3、利用贝叶斯估计参数学习方法进行参数学习,得到节点间条件概率表;4、利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算结果大小得到影响特定表型性状的基因间交互关系。本发明专利技术可以帮助生物学研究者获得影响特定表型性状的上位性基因位点,进而辅助基因功能挖掘,以及为不同物种的复杂数量性状的遗传基础解析提供借鉴。

A Bayesian Network Reasoning-based Intergene Interaction Mining Method

The invention provides a method for mining gene-to-gene interaction based on Bayesian network reasoning, which includes the following steps: 1. Calculating mutual information between genes, genes and phenotypic traits, and between phenotypic and phenotypic traits by using the method of estimating entropy using Gauss kernel probability density estimator; 2. Constructing a Bayesian network structure learning method including genes by using three-stage dependency analysis; Bayesian network with phenotypic traits nodes; 3. Using Bayesian estimation parameter learning method to obtain conditional probability table among nodes; 4. Using Gibbs sampling Bayesian network approximate reasoning method to calculate conditional probability between different number of genes and phenotypic traits, according to the size of the calculated results, the interaction between genes affecting specific phenotypic traits can be obtained. The invention can help biologists to obtain epistatic gene loci affecting specific phenotypic traits, thereby assisting gene function mining, and provide reference for genetic basis analysis of complex quantitative traits of different species.

【技术实现步骤摘要】
一种基于贝叶斯网络推理的基因间交互关系挖掘方法
本专利技术涉及生物信息
,尤其涉及一种基于贝叶斯网络推理的基因间交互关系挖掘方法。
技术介绍
生物信息学是一门通过综合运用生物学(如结构生物学、生物化学、遗传学等),计算机科学(人工智能、机器学习等),数学(概率与统计等)等多门学科而获知海量生物数据背后奥秘的交叉学科。它综合运用各种算法、软件等对大量生物数据进行分析和处理,进而挖掘隐藏在数据背后的生物学规律。疾病是影响人类健康最重要的因素,疾病可以分为简单疾病和复杂疾病。目前大多数疾病都是属于复杂疾病,比如阿兹海默症、哮喘、帕金森氏症、骨质疏松症、结缔组织病等。虽然复杂疾病不遵循孟德尔遗传规律,但疾病易感性在一定程度上可以由基因因素进行解释,拥有某种易感性基因的人更有可能得病。因此,疾病的致病基因挖掘是目前生物信息学领域研究的热点问题之一。近年来,随着诸多高通量技术的成熟与迅猛发展,产生了海量的生物数据,如基因组、转录组和表型组等。从全基因组数据范围内挖掘影响特定表型性状(如人类疾病、作物产量性状等)的基因位点变得可能,这也成为当今生命科学领域具有挑战的研究课题。全基因组关联研究(Genome-WideAssociationStudy,GWAS)是常用的在全基因组范围内筛检出与表型显著关联的单核苷酸多态性(SingleNucleotidePolymorphism,SNP)的方法。这种方法在单基因病(即符合孟德尔遗传规律)方面效果良好,能够发现一些致病基因,从而揭示此类疾病的遗传机理。然而,这种方法主要侧重于检测主效基因,并不适用于不符合孟德尔遗传规律的复杂疾病的遗传机理解析。从此,研究者开始转向多基因位点研究,主要包括基因与基因之间的相互作用或基因与环境之间的相互作用对疾病的影响,进行关联分析。目前越来越多的研究表明,基因间的相互作用(即上位性)是影响人类复杂疾病很重要的原因,也被业界认为是遗传性缺失的重要原因,研究者对上位效应的研究兴趣也日益浓厚。然而由于基因-基因、基因-环境相互作用等不符合孟德尔遗传规律,给研究者也带来了很大的困难与挑战。需要研究者以往科学研究的基础上提出一些新的理论和方法,这也给机器学习和数据挖掘方法以用武之地。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于贝叶斯网络推理的基因间交互关系挖掘方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种基于贝叶斯网络推理的基因间交互关系挖掘方法,包括以下步骤:步骤1、获取基因表达量和特定表型数据,对其进行正态化处理,利用高斯核概率密度估计量估测熵的方法,分别计算基因与基因间、基因与表型性状以及表型与表型性状间互信息;步骤2、在计算节点间互信息和条件互信息的基础上,利用三阶段依赖分析贝叶斯网络结构学习方法,构建包含基因与表型性状节点的贝叶斯网络结构;步骤3、在步骤2中构建的包含基因与表型性状节点的贝叶斯网络结构网络图的基础上,利用贝叶斯网络参数学习方法学习得到各个节点的条件概率,得到条件概率表;步骤4、在步骤3所得条件概率表的基础上,利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算结果大小得到影响特定表型性状的基因间交互关系。进一步地,本专利技术的步骤2中的三阶段依赖分析贝叶斯网络结构学习方法的具体包括Drafting,Thickening和Thinning三个步骤。进一步地,本专利技术的步骤2中的Drafting,Thickening和Thinning三个步骤具体方法为:步骤2.1、Drafting,将基因与表型性状作为网络中节点,利用高斯核概率密度估计量估测熵的方法计算任意两个节点之间的互信息,将互信息大于阈值的节点间的边添加到集合S中,然后根据互信息值的大小对S中节点对进行排序;然后对S中节点对进行循环判断,如果这两个节点之间存在开放路径,则将该节点对加入到集合R中;否则,将该节点对对应的边插入到图中,构造一个初始网络有向图;步骤2.2、Thickening,条件互信息判断,在通过步骤2.1构建初始网络结构图的基础上,对Drafting阶段得到的集合R中节点对进行循环,查找能够D-分离该节点对的条件割集Cutset,然后利用条件独立性测试判断该节点对是否条件独立;如果条件不独立,将两个节点用有向边相连;否则,对集合R中下一节点对进行循环判断;步骤2.3、Thinning,检查构造的图边集中的每一条边e,暂时移开e,在当前图中查找能够D-分离e连接两个节点的最小割集Cutsetmin,利用条件独立性测试判断两个节点在最小割集Cutsetmin条件下是否独立;如果条件独立,则删除e;否则,将e重新添加到网络图中,得到基因与表型性状节点的贝叶斯网络。进一步地,本专利技术的步骤4的具体方法为:步骤4.1、利用Quantile方法对基因表达和表型数据进行n值离散化处理,将同一基因的表达和特定表型数据划分为n个区间,将这些区间表示n1,n2,n3…nm;步骤4.2、利用吉布斯抽样贝叶斯网络近似推理方法计算任意多个基因与表型性状间条件概率;然后对这些条件概率进行求和,得到多个基因对表型性状的影响大小。进一步地,本专利技术的步骤2.1中利用高斯核概率密度估计量估测熵的方法计算任意两个节点之间的互信息的方法具体为:用p(x)表示X集合中变量x的概率,对于基因或表型性状变量X,用信息熵H(X)度量X的平均不确定性,其公式为:计算X集合和Y集合的联合熵,其公式为:基于条件概率熵,计算变量X与Y的互信息,其公式为:MI(X,Y)=H(X)+H(Y)-H(X,Y)同时计算给定Z条件下X与Y的条件互信息,其公式为:MI(X,Y|Z)=H(X,Z)+H(Y,Z)-H(Z)-H(X,Y,Z)采用高斯核概率密度估计量估测熵的方法计算节点间互信息,得到:其中,C表示变量的协方差矩阵,|C|表示矩阵C的行列式。本专利技术产生的有益效果是:本专利技术的基于贝叶斯网络推理的基因间交互关系挖掘方法,利用三阶段依赖分析贝叶斯网络结构学习方法,利用高斯核概率密度估计量估测熵的互信息计算方法,构建包含基因与表型性状节点的贝叶斯网络结构。在构建贝叶斯网络的基础上,利用贝叶斯估计参数学习方法进行参数学习,得到节点间条件概率表。最后,利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算的条件概率大小得到影响特定表型性状的基因间交互关系,进而得到影响特定表型性状的上位性基因位点,辅助基因功能挖掘。该可以帮助生物学研究者获得影响特定表型性状的上位性基因位点,进而辅助基因功能挖掘,以及为不同物种的复杂数量性状的遗传基础解析提供借鉴。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1为本专利技术实施例的具体实施的原理示意图;图2为本专利技术实施例的学习得到的贝叶斯网络条件概率表;图3为本专利技术实施例的基因与表型性状网络结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。1、对基因表达转录数据和特定表型数据进行正态化处理,将其处理为特定区间(如[-3,3])的连续数据。2本文档来自技高网
...

【技术保护点】
1.一种基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,包括以下步骤:步骤1、获取基因表达量和特定表型数据,对其进行正态化处理,利用高斯核概率密度估计量估测熵的方法,分别计算基因与基因间、基因与表型性状以及表型与表型性状间互信息;步骤2、在计算节点间互信息和条件互信息的基础上,利用三阶段依赖分析贝叶斯网络结构学习方法,构建包含基因与表型性状节点的贝叶斯网络结构;步骤3、在步骤2中构建的包含基因与表型性状节点的贝叶斯网络结构网络图的基础上,利用贝叶斯网络参数学习方法学习得到各个节点的条件概率,得到条件概率表;步骤4、在步骤3所得条件概率表的基础上,利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算结果大小得到影响特定表型性状的基因间交互关系。

【技术特征摘要】
1.一种基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,包括以下步骤:步骤1、获取基因表达量和特定表型数据,对其进行正态化处理,利用高斯核概率密度估计量估测熵的方法,分别计算基因与基因间、基因与表型性状以及表型与表型性状间互信息;步骤2、在计算节点间互信息和条件互信息的基础上,利用三阶段依赖分析贝叶斯网络结构学习方法,构建包含基因与表型性状节点的贝叶斯网络结构;步骤3、在步骤2中构建的包含基因与表型性状节点的贝叶斯网络结构网络图的基础上,利用贝叶斯网络参数学习方法学习得到各个节点的条件概率,得到条件概率表;步骤4、在步骤3所得条件概率表的基础上,利用吉布斯抽样贝叶斯网络近似推理方法计算不同个数的基因与表型性状间条件概率,根据计算结果大小得到影响特定表型性状的基因间交互关系。2.根据权利要求1所述的基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,步骤2中的三阶段依赖分析贝叶斯网络结构学习方法的具体包括Drafting,Thickening和Thinning三个步骤。3.根据权利要求2所述的基于贝叶斯网络推理的基因间交互关系挖掘方法,其特征在于,步骤2中的Drafting,Thickening和Thinning三个步骤具体方法为:步骤2.1、Drafting,将基因与表型性状作为网络中节点,利用高斯核概率密度估计量估测熵的方法计算任意两个节点之间的互信息,将互信息大于阈值的节点间的边添加到集合S中,然后根据互信息值的大小对S中节点对进行排序;然后对S中节点对进行循环判断,如果这两个节点之间存在开放路径,则将该节点对加入到集合R中;否则,将该节点对对应的边插入到图中,构造一个初始网络有向图;步骤2.2、Thickening,条件互信息判断,在通过步骤2.1构建初始网络结构图的基础上,对Drafting阶段得到的集合R中节点...

【专利技术属性】
技术研发人员:刘建晓向宇嘉田宗霖郝松林张小龙
申请(专利权)人:华中农业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1