当前位置: 首页 > 专利查询>上海大学专利>正文

一种逐步回归基因调控网络的推断方法技术

技术编号:4180579 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种逐步回归基因调控网络的推断方法,该方法步骤如下:A.读取基因表达数据矩阵和基因扰动数据矩阵;B.确定基因表达矩阵和基因扰动矩阵是否均为标准化数据;C.对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化均构成标准化数据;D.分析标准化数据,计算所有基因间相关系数矩阵;E.将基因间相关系数矩阵可视化成网络,得到基因调控网络图。该方法能进行最优回归子集的选择,因此解决了高维小样本实验数据的问题;2.为目标基因逐步选择最具显著影响的调控子,符合了基因调控网络的真实情况;3.随着基因调控网络规模的增大和网络稀疏度的增加,在计算精度、计算效率上均优于同类方法。

【技术实现步骤摘要】

本专利技术涉及计算机领域,涉及。
技术介绍
从大规模基因表达测量数据集中推断基因调控网络无论从计算还是实验的角度 都是一项难题。主要原因在于,即使在不考虑具体的生化反应动力学特性(如基因调控网 络的动态变化)的情况下,由一定数目的基因构成的网络结构也有相当多种可能性。因此 基因网络预测或构建算法所面临的最大挑战在于数据维数过大,实验样本有限而与之相 关的网络结构却存在多种可能性。 从基因表达数据中成功地构建基因调控网络,往往需要复杂的计算,或者进行昂 贵费时的前期实验设计,以产生足够多的高质量数据来避免过多的计算。因此,如何解决这 两者间的矛盾,尽量达到一个平衡是大多数方法需要面临的难题。通常采用的解决方法是 将问题进行简化,例如,假设整个系统处于稳定状态,使用稳态数据来推测网络,或者给每 个基因与其它基因的连接个数加一个限制。 由于基因数N远大于单基因扰动实验次数M,要推断N个基因之间的调控关系,构 建基因调控网络非常困难。因此,以多重回归的网络识别算法,即NIR算法为代表的现有算 法提出假设每个基因最多有k个调控基因,也称为调控子。通过这样的假设,降低了数据 维度,将基因调控系数矩阵转换为稀疏矩阵,这确实符合生物网络为稀疏网络的理论,但同 时也对每个基因的调控子的选择从数量到质量都造成缺陷 1 、从生物学意义考虑,每个基因的调控子数量是不可能相同。如果对每个基因固 定最大非零连接的数量k,而事实上某个基因的调控子数量大于k,那么显然很多基因在入 选为调控子之前就失去了被选择为调控子的机会。 2、从统计意义考虑,在构建好基因调控网络的回归模型后,仅仅对整体模型进行 统计显著性检验是缺乏说服力的。因为整体的基因表达观测值对回归模型具有统计显著 性并不代表每个入选基因都分别具有统计显著性,要判断一个基因是否可以真正被选进模 型,还必须对选入进回归模型的基因作偏回归平方和的F检验。 3、从计算角度出发,若对所有可能的网络结构进行计算,这种采取遍历策略的串 行算法会造成过高的时空复杂度。
技术实现思路
本专利技术的目的在于为了解决以上诸多的技术问题提供一种逐步回归基因调控网 络的推断方法,该方法能推断出符合真实基因调控网络特性的稀疏网络,预测出网络中最 具统计显著性的边,同时避免过高的假阳性,克服高维小样本的实验数据问题,避免以往算 法中对目标基因强制设定最大连接数的不合理性。 为达到上述目的,本专利技术的构思是首先根据最优子集的回归原则,首先对目标基 因挑选最具统计显著性的调控子,然后对选入的调控子基因作偏回归平方和的F检验。每增加一个新的入选调控子,都要重新对先前入选的调控子进行F检验,若通过检验,则可以 继续被保留在回归模型中,否则将被剔除,重复这个过程直到未被选入的调控子中没有可 以再被选入的,并且已选入的调控子中没有可被剔除的,最后对所有选入的调控子用多重 线性回归计算基因间相互调控系数。 根据上述专利技术构思,本专利技术采用下述技术方案 —种逐步回归基因调控网络的推断方法,其特征在于具体操作步骤如下 A.读取基因表达数据矩阵和基因扰动数据矩阵; B.确定基因表达矩阵和基因扰动矩阵是否均为标准化数据,若基因表达数据矩阵 和基因扰动数据据矩阵均为标准化数据,则转步骤D,否则转步骤C ; C.对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化,使基因表达 数据矩阵和基因扰动数据据矩阵均构成标准化数据; D.分析标准化数据,用多重线性回归计算所有基因间相关系数矩阵; E.将基因间相关系数矩阵可视化成网络,得到基因调控网络图。 本专利技术的与已有技术相比较,具有如下面显而易见的突出实质性特点和显著有点 1.该方法克服了高维小样本的实验数据问题。由于该方法采用的是每次只引入或 剔除一个调控子,因此在实验次数小于基因个数(M《N)的情况下,也能进行最优回归子集 的选择,因此解决了高维小样本实验数据的问题; 2.该方法避免了现有算法中对目标基因强制设定最大连接数的不合理性。本方法 不是事先统一规定每个基因的调控子个数,而是通过逐步回归的构思,为目标基因逐步选 择最具显著影响的调控子,因此每个基因的调控子个数是不同的,符合了基因调控网络的 真实情况; 3.随着基因调控网络规模的增大和网络稀疏度的增加,该方法在计算精度、计算 效率上均优于同类方法。附图说明 图1是本专利技术的的流程图。 图2是图1中步骤D所述的分析标准化数据,计算所有基因间相关系数矩阵的具体流程图。 图3是图2中步骤D1所述的从N个基因中为基因i选择第一个调控子的具体流 程图。 图4是图2中步骤D2所述的对基因i选择第二个调控子的具体流程图。 图5是图2中步骤D3所述的终止引入新的调控子并完成回归模型的建立的具体流程图。 图6是本专利技术的方法与现有的NIR算法分别对不同规模的基因调控网络进行构建 的敏感性对比图。 图7是本专利技术的方法与现有的NIR算法分别对不同规模的基因调控网络进行构建 的特异性对比图。 图8是本专利技术的方法与现有的NIR算法分别对不同规模的基因调控网络进行构建的覆盖率对比图。 图9是本专利技术的方法与现有的NIR算法分别对不同规模的基因调控网络进行构建 的精度对比图。 图10是本专利技术的方法与现有的NIR算法分别对不同规模的基因调控网络进行构 建的计算时间对比图。具体实施例方式以下结合附图对本专利技术的实施例作进一步详细说明。 本实施例中,本专利技术的逐步回归基因调控网络的推断方法的实验在上海大学系统 生物研究所的集群计算机上运行,该集群由14台IBM HS21刀片服务器和2台x3650服务 器组成计算和管理节点,网络连接采用千兆以太网和infiniband 2. 5G网。 本专利技术的,如图1所示,包括以下步骤 A.读取基因表达数据矩阵和基因扰动数据矩阵; B.确定基因表达矩阵和基因扰动矩阵是否均为标准化数据。若基因表达数据矩阵 和基因扰动数据据矩阵均为标准化数据,则转步骤D,否则转步骤C ; C.对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化,使基因表达 数据矩阵和基因扰动数据据矩阵均构成标准化数据,公式为 ~=^^, "l,2,…,W;y、l,2,…,Mv丄; &=^^, ^1,2"."A^ = 1,2,.."M 其中,Xij为基因表达数据矩阵中的元素; #为Xj的离差平方和; N为基因的数量,M为基因扰动的实验次数; Pij为基因扰动数据矩阵中的元素; #为Pj的离差平方和。 D.分析标准化数据,用多重线性回归计算所有基因间相关系数矩阵,请参照图2, 其具体步骤如下 Dl.从N个基因中的基因i选择第一个调控子,请参照图3,其具体步骤如下 Dll.对基因i建立N个只包含一个自变量的回归方程,回归方程为 免.—')a:(/), j' = 1,2,...,W 其中J,为yi的估计值,yi代表基因i的扰动值; aij为调控子j对基因i的调控系数; D12.对N个方程进行F检验,F检验值最大的基因j被暂时确定为基因i的第一 个调控子; D13.对第一个调控子j进行偏F检验,偏F检验值为F/1),给定选入变量的显著性 水平Fa,判断《')> i^是否成立,如果《"> F^成立,则转步骤D14,如果《')&g本文档来自技高网
...

【技术保护点】
一种逐步回归基因调控网络的推断方法,其特征在于,该方法具体步骤如下:A.读取基因表达数据矩阵和基因扰动数据矩阵;B.确定基因表达矩阵和基因扰动矩阵是否均为标准化数据,若基因表达数据矩阵和基因扰动数据据矩阵均为标准化数据,则转步骤D,否则转步骤C;C.对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化,使基因表达数据矩阵和基因扰动数据据矩阵均构成标准化数据;D.分析标准化数据,用多重线性回归计算所有基因间相关系数矩阵;E.将基因间相关系数矩阵可视化成网络,得到基因调控网络图。

【技术特征摘要】

【专利技术属性】
技术研发人员:张武张律文肖梅谢江宋安平何冰
申请(专利权)人:上海大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1