当前位置: 首页 > 专利查询>深圳大学专利>正文

基于贝叶斯网络的基因调控网络构建方法技术

技术编号:4254114 阅读:227 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于贝叶斯网络的基因调控网络构建方法,通过建立基因调控网络模型对某一物种或组织中的全部基因的表达关系进行整体的模拟分析和研究,建立基因调控网络模型的步骤包括:A,通过具有记忆的二进制粒子群优化算法来识别最佳节点次序,其中通过二进制粒子群优化算法对粒子进行速度更新后,对部分粒子速度进行变异,对搜索空间进行搜索,以跳出局部最优;B,将获得的最佳节点次序作为K2算法的输入,然后执行K2算法学习贝叶斯网络的结构。本发明专利技术收敛速度快,运算简单、易于实现等优点,为研究基因转录水平的调控提供线索,更精确的表示出基因调控网络的结构,并且对研究生物学、医学、药学等诸多领域具有重要的理论意义和实用价值。

【技术实现步骤摘要】

本专利技术涉及基因调控网络领域,更具体地说,涉及一种。
技术介绍
基因调控网络模型分析和重建的研究,是生物信息学研究中的一个很重要的方向,也是基因表达数据分析的一个重要手段。基因网络研究的目的是通过建立基因转录调控网络模型对某一个物种或组织中的全部基因的表达关系进行整体的模拟分析和研究,在系统的框架下认识生命现象,特别是其中涉及的复杂的分子调控过程,支配基因表达和功能的基本规则,信息流动的规律和在整体的框架下研究基因的功能,为研制和识别疾病治疗中的潜在靶标提供预测工具。 通过对基因调控网络的研究,有助于理解支配基因表达和功能的基本规则。理解决定哪个基因什么时候表达的机制是许多基因操作的关键。目前致力于发现联合调控的基因的研究,实际上是用生物信息学的方法揭示基因的潜在调控机制;通过对基因调控网络的研究,有助于揭示基因表达过程中的信息传输规律基因通过表达传输遗传信息。基因调控网络的研究可以用量化的方法从一个侧面对基因表达过程中的信息进行挖掘。通过信息提取、分析、了解基因功能,理解遗传网络,弄清疾病发病机制;通过对基因调控网络的研究,更有助于从整体的框架下研究基因的功能。不仅要从结构层次上研究基因的功能,更要从网络层次上发掘和认识基因的功能。基因在错综复杂的网络关系中互相影响,协同工作,这必然蕴涵着DNA序列无法完全揭示的新功能。基因从表达中展示其功能,但基因的表达是一个彼此相互作用和调控的过程。通过网络研究哪种疾病与哪个基因或过程有关,在药物设计上有很重要的意义。 现有技术中,基因调控网络研究的模型主要有布尔模型、线性组合模型、贝叶斯模型、微分方程以及信息熵关联网络模型等。由于贝叶斯模型可以更加好的处理原始数据中的噪声和缺失,同时又易于融入先验知识,所以贝叶斯模型更加适合基因调控网络的学习。 贝叶斯网络结构可以用有向无环图(Directed Acyclic Graph,DAG)表示,DAG中的节点表示网络的变量,边表示变量之间的因果关系。公式表示为G=<X,E>,G表示有向无环图,X表示变量,在基因网络中可并表示基因表达水平,E表示边。令x={x1,x2,…,xi,…,xn},其中n表示基因数量,xi表示基因i的基因表达水平。对于每一个xi,有一个条件分布P(xi|parents(xi)),这里parents(xi)表示在G中此变量直接前驱集,即父节点集。由无环图G和条件分布P(xi|parents(xi))共同构成贝叶斯网络。根据马尔科夫假设,即对于每一个G中的节点,在给定其所有父节点的情况下,条件独立于其非子节点,则贝叶斯网络的联合概率分布可分解为 给定数据集D,则结构学习的目的为找出最匹配数据的网络结构G。在基于评分的结构学习中,即找出评分函数的最优值。最常用的评分函数为BDe分数(Bayesian Dirichlet Equivalent),如公式(2)所示 其中Nijk为数据集D中满足(表示xi取第k个值)且parents(xi)=j(表示节点集取第j个排列)情况下的数目。公式(2)中Nij的计算公式为N′ijk(先验分布的指系数)的计算公式为(S为等效样本容量);N′ij的计算公式则为 贝叶斯网络模型的结构学习是指利用训练样本集确定网络拓扑结构,这是一个NP完全问题。而K2算法是最为经典的局部搜索算法,并被广泛应用在贝叶斯网络的结构学习中。K2算法的主要思想是在给定数据条件下,使得得到网络拓扑结构G的可能性最大。K2算法预先选定一个节点顺序,并且假定所有网络结构的先验概率相等,一定程度上缩减了结构候选集的规模。但是节点顺序要求只有该节点之后的节点才可以作为其父节点的备选节点。K2算法按照节点顺序依次为每个节点寻找父节点直到新增的父节点不能使评分函数的分值更优。算法始终要求在最大化父节点集网络分数的同时满足严格遵循备选节点的条件。 粒子群优化算法(Particle Swarm Optimization,PSO)是J.Kennedy和R。C.Eberhart于1995年提出的,源于对鸟群觅食行为的研究,是一种较新的群智能优化算法。由于PSO算法容易实现、收敛速度快、参数少等优点,它在过去十年内引起了众多学者的关注。随后出现了很多PSO算法的改进算法,并被应用于各个领域,如函数优化、神经网络训练、模糊系统控制、电力系统以及其它优化算法的应用领域。 在粒子群算法中,每个个体称为一个“粒子”,每个粒子代表着一个潜在的解。设在一个D维的目标搜索空间中,有m个粒子构成一个群体,每个粒子看成是空间内的一个点。m也被称为群体规模,过大的m会影响算法的运算速度和收敛性。 其中第i个粒子表示为一个D维的位置矢量zi=zi1,zi2,…,ziD)。根据粒子的位置矢量zi,即可通过事先设定的适应值函数(与要解决的问题有关)计算粒子当前的适应值,即可衡量粒子位置的优劣;在每次迭代中,赋予每个粒子一定的速度(即粒子移动的距离),设粒子i的飞行速度表示为vi=(vi1,vi2,…,vid,…,viD); 粒子迄今为止搜索到的最优位置表示为pi=(pi1,pi2,…,pid,…,piD);整个粒子群迄今为止搜索到的最优位置表示为pg=(pg1,pg2,…,pg,…,pgD)。 在每次迭代中,粒子根据以下式子更新速度和位置 其中i=1,2,…,m,d=1,2,…,D,k是迭代次数,r1和r2为之间的随机数,这两个参数是用来保持群体的多样性。惯性权重w起着权衡局部最优能力和全局最优能力的作用。c1和c2为学习因子,也称加速因子,其中c1调节粒子飞向自身最好位置方向的步长,c2调节粒子飞向全局最好位置方向的步长。适当调整这两个参数,可以减少局部最小值的困扰,也会加快收敛速度。由于PSO中没有实际的机制来控制粒子速度,因此有必要对速度的最大值进行限制,从而减少进化过程中粒子离开搜索空间的可能。在PSO中,位置zi的取值范围限制在[zmin,zmax]。阈值vmax这个参数具有一定的重要性,值太大会导致粒子跳过最好解,但太小又导致粒子不能够对搜索空间进行充分的搜索。 速度更新公式(3)具有三部分第一项是粒子在上一次迭代中的速度;第二项是“认知”部分(Cognition Part),为当前位置和自身最好经验的距离,代表着粒子对自身的学习;而公式的第三项是“社会”部分(Social Part),为当前位置与群体最好经验之间的距离,代表着粒子间的协作。可见粒子具有自我总结和向群体中优秀个体学习的能力,在一定程度上向自己的历史最优点以及群体内历史最优点靠近。 现有技术方案的主要缺点贝叶斯网络模型的结构学习是指利用训练样本集确定网络拓扑结构,这是一个NP完全问题。在构建基因调控网络时,现有的贝叶斯方法有两个显著缺陷,一是较低的正确率;二是较多的运算时间。而基于局部搜索算法的K2算法,在正确指定节点次序的情况下,K2算法的执行效率和精度较高。但在很多应用中,节点顺序通常是未知的。如何正确指定节点次序是NP难题,在实际使用时全凭经验,这成为影响算法性能的主要因素。如果K2算法预先选定一个节点顺序不合适,则构建出的网络结构正确率不高。
技术实现思路
本专利技术要解决的技术本文档来自技高网
...

【技术保护点】
一种基于贝叶斯网络的基因调控网络构建方法,通过建立基因调控网络模型对某一物种或组织中的全部基因的表达关系进行整体的模拟分析和研究,其特征在于,建立基因调控网络模型的步骤包括:A,通过具有记忆的二进制粒子群优化算法来识别最佳节点次序,其中通过二进制粒子群优化算法对粒子进行速度更新后,对部分粒子速度进行变异,对搜索空间进行搜索,以跳出局部最优;B,将获得的最佳节点次序作为K2算法的输入,然后执行K2算法学习贝叶斯网络的结构。

【技术特征摘要】
1.一种基于贝叶斯网络的基因调控网络构建方法,通过建立基因调控网络模型对某一物种或组织中的全部基因的表达关系进行整体的模拟分析和研究,其特征在于,建立基因调控网络模型的步骤包括A,通过具有记忆的二进制粒子群优化算法来识别最佳节点次序,其中通过二进制粒子群优化算法对粒子进行速度更新后,对部分粒子速度进行变异,对搜索空间进行搜索,以跳出局部最优;B,将获得的最佳节点次序作为K2算法的输入,然后执行K2算法学习贝叶斯网络的结构。2.根据权利要求1所述的基于贝叶斯网络的基因调控网络构建方法,其特征在于,步骤A中具体包括A1,对粒子进行编码,包括利用邻接矩阵DAG表示粒子的位置和速度,每个粒子代表一个邻接矩阵DAG;A2,确定粒子的参数值,包括确定种群规模N,确定粒子群优化算法中的学习因子c1和c2;A3,初始化所有粒子的位置和速度;A4,计算粒子的适应值并更新记忆库粒子;A5,更新粒子的速度,并当粒子速度接近最大限制值或最小限制值时,对速度进行变异;A6,更新粒子的位置;A7,用记忆库中的记忆粒子替换粒子群中适应值小的粒子;A8,检测全局极值GB并纠正回路。3.根据权利要求2所述的基于贝叶斯网络的基因调控网络构建方法,其特征在于,步骤B中具体包括B1,将步骤A8中修正过的全局极值GB的值作为k2算法的输入,并执行K2算法。4.根据权利要求2所述的基于贝叶斯网络的基因调控网络构建方法,其特征在于,步骤A3中,每个粒子的位置由以下的式子决定其中,i=1,2,...,N;j=1,2...,n,i、j随机生成,R(0,1)表示随机产生之间的随机数;每个粒子的速度由以下的式子决定vij(0)=vmin+R(0,1)(vmax-vmin) (6)其中,vij(0)随机生成,vmax和vmin表示速度的最大最小限制值。5.根据权利要求2所述的基于贝叶斯网络的基因调控网络构建方法,其特征在于,步骤A4、中,采用的评分函数为BDe分数,其公式为其中Nijk为数据集D中满足(表示xi取...

【专利技术属性】
技术研发人员:纪震杜智华储颖周家锐
申请(专利权)人:深圳大学
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1