一种逐步回归基因调控网络的推断方法技术

技术编号：4180579 阅读：277 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种逐步回归基因调控网络的推断方法，该方法步骤如下：Ａ．读取基因表达数据矩阵和基因扰动数据矩阵；Ｂ．确定基因表达矩阵和基因扰动矩阵是否均为标准化数据；Ｃ．对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化均构成标准化数据；Ｄ．分析标准化数据，计算所有基因间相关系数矩阵；Ｅ．将基因间相关系数矩阵可视化成网络，得到基因调控网络图。该方法能进行最优回归子集的选择，因此解决了高维小样本实验数据的问题；２．为目标基因逐步选择最具显著影响的调控子，符合了基因调控网络的真实情况；３．随着基因调控网络规模的增大和网络稀疏度的增加，在计算精度、计算效率上均优于同类方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，涉及。
技术介绍
从大规模基因表达测量数据集中推断基因调控网络无论从计算还是实验的角度都是一项难题。主要原因在于，即使在不考虑具体的生化反应动力学特性(如基因调控网络的动态变化)的情况下，由一定数目的基因构成的网络结构也有相当多种可能性。因此基因网络预测或构建算法所面临的最大挑战在于数据维数过大，实验样本有限而与之相关的网络结构却存在多种可能性。从基因表达数据中成功地构建基因调控网络，往往需要复杂的计算，或者进行昂贵费时的前期实验设计，以产生足够多的高质量数据来避免过多的计算。因此，如何解决这两者间的矛盾，尽量达到一个平衡是大多数方法需要面临的难题。通常采用的解决方法是将问题进行简化，例如，假设整个系统处于稳定状态，使用稳态数据来推测网络，或者给每个基因与其它基因的连接个数加一个限制。由于基因数N远大于单基因扰动实验次数M，要推断N个基因之间的调控关系，构建基因调控网络非常困难。因此，以多重回归的网络识别算法，即NIR算法为代表的现有算法提出假设每个基因最多有k个调控基因，也称为调控子。通过这样的假设，降低了数据维度，将基因调控系数矩阵转换为稀疏矩阵，这确实符合生物网络为稀疏网络的理论，但同时也对每个基因的调控子的选择从数量到质量都造成缺陷 1 、从生物学意义考虑，每个基因的调控子数量是不可能相同。如果对每个基因固定最大非零连接的数量k，而事实上某个基因的调控子数量大于k，那么显然很多基因在入选为调控子之前就失去了被选择为调控子的机会。 2、从统计意义考虑，在构建好基因调控网络的回归模型后，仅仅对...

【技术保护点】
一种逐步回归基因调控网络的推断方法，其特征在于，该方法具体步骤如下：Ａ．读取基因表达数据矩阵和基因扰动数据矩阵；Ｂ．确定基因表达矩阵和基因扰动矩阵是否均为标准化数据，若基因表达数据矩阵和基因扰动数据据矩阵均为标准化数据，则转步骤Ｄ，否则转步骤Ｃ；Ｃ．对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化，使基因表达数据矩阵和基因扰动数据据矩阵均构成标准化数据；Ｄ．分析标准化数据，用多重线性回归计算所有基因间相关系数矩阵；Ｅ．将基因间相关系数矩阵可视化成网络，得到基因调控网络图。

【技术特征摘要】

【专利技术属性】
技术研发人员：张武，张律文，肖梅，谢江，宋安平，何冰，
申请(专利权)人：上海大学，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人