一种面向大规模基因调控网络的智能推断方法技术

技术编号:30366395 阅读:21 留言:0更新日期:2021-10-16 17:33
本发明专利技术公开了一种面向大规模基因调控网络的智能推断方法,其包括在基因表达数据点分布的两维空间中,使用网格划分数据空间,使落在格子中的数据点的频率作为联合概率分布函数的估计,并确定基因x和基因y表达值之间的互信息;在不同大小的网格中计算互信息获得最大互信息系数,并得到靶基因的关键调控基因集;利用关键调控基因重要性融合算法计算调控基因对靶基因的重要性,得到重要性矩阵;在重要性矩阵中保留控制强度超过设定阈值的调控关系,控制强度超过设定阈值的调控关系构成基因调控网络。本方法针对大规模基因调控网络中关键调控基因的稀疏性,排除冗余基因表达信息,有效提高了计算效率,可以提高推断调控关系的准确度。准确度。准确度。

【技术实现步骤摘要】
一种面向大规模基因调控网络的智能推断方法


[0001]本专利技术涉及基因调控领域,尤其涉及一种面向大规模基因调控网络的智能推断方法。

技术介绍

[0002]基因调控网络是由基因之间相互作用形成的动态生化网络,能够从系统的角度认识、理解生物遗传信号的传输、细胞的分裂等活动规律,对于阐明细胞周期、损伤修复和凋亡的生物学机制至关重要。此外,基因调控网可以分析和识别病变细胞的关键调控基因,有助于肿瘤等复杂疾病的诊断、治疗以及靶向药物的研发。因此,推断基因调控网络是系统生物学的一项重要研究内容。随着高通量测序技术的发展,研究人员已经获得了大量的生物基因表达数据,例如大肠杆菌数据集包含的基因数量接近4000个,为基因调控网络的推断奠定了基础。近年来使用人工智能方法和基因表达数据推断基因调控网络成为生物信息学研究的热点。
[0003]目前已有的面向大规模基因表达数据的基因调控网络推断算法,主要存在两个缺点,一是推断算法的计算效率较低,二是推断算法的准确性有待提高。主要原因是基因调控网络具有高维度、非线性等特点,使得大规模基因调控网络的推断非常困难。

技术实现思路

[0004]本专利技术提供一种名称,以克服计算效率较低、准确性不高等技术问题。
[0005]为了实现上述目的,本专利技术的技术方案是:
[0006]一种面向大规模基因调控网络的智能推断方法,其特征在于,包括:
[0007]步骤1,在基因表达数据点分布的两维空间中,使用m*n的网格划分数据空间,使落在第(x,y)格子中的数据点的频率作为联合概率分布函数p(x,y)的估计值o(x,y);
[0008]步骤2,利用联合概率分布函数p(x,y)的估计值o(x,y)确定基因x和基因y表达值之间的互信息I(X;Y);
[0009]步骤3,在不同网格中利用互信息I(X;Y)计算最大互信息系数MIC(X;Y),筛选出调控基因集X中关于靶基因Y的关键调控基因集R;
[0010]步骤4,利用关键调控基因重要性融合算法计算关键调控基因集R中的调控基因对靶基因的重要性,获得重要性矩阵I;
[0011]步骤5,在重要性矩阵I中保留控制强度超过设定阈值的调控关系,控制强度超过设定阈值的调控关系构成基因调控网络。
[0012]进一步的,步骤4具体为:
[0013]步骤4.1,整合基因真实表达数据中的时间序列数据和平稳状态数据及关键调控基因集R,获得用于建模的基因表达数据集;
[0014]步骤4.2,将基因表达数据集分解为P个子集,每一个子集均有一个靶基因;
[0015]步骤4.3,在每个子集中,分别运用XGBoost、LightGBM和CatBoost算法建立树模型
学习非线性函数,计算得到关键调控基因对靶基因的重要性值;
[0016]步骤4.4,将关键调控基因对靶基因的重要性值排序,得到一个有序的关键调控基因的重要性列表F1;
[0017]步骤4.5,重复4.3和4.4,依据基因编号将P个重要性列表合成为重要性矩阵I。
[0018]进一步的,步骤3筛选出调控基因集X中关于靶基因Y的关键调控基因集R具体为:
[0019]步骤3.1:给定基因真实表达数据,其中基因真实表达数据共有S个样本和G个基因,依次选取一个基因作为靶基因j,剩下的基因作为候选调控基因;
[0020]步骤3.2:获取给定靶基因j与候选调控基因之间的最大信息系数MIC(X;Y),选取阈值剔除冗余调控基因,得到给定靶基因的关键调控基因列表R
j

[0021]步骤3.3:重复步骤3.1和步骤3.2,得到所有靶基因的关键调控基因集R。
[0022]进一步的,步骤4.3中在每个子集中,分别运用XGBoost、LightGBM和CatBoost算法建立树模型学习非线性函数,计算得到关键调控基因对靶基因的重要性具体为:
[0023]步骤4.3.1,利用XGBoost算法获得第一重要性列表F
XGB

[0024]步骤4.3.2,利用LightGBM算法获得第二重要性列表F
LG

[0025]步骤4.3.3,利用CatBoost算法获得第三重要性列表F
CB

[0026]步骤4.3.4,由第一重要性列表F
XGB
、第二重要性列表F
LG
和第三重要性列表F
CB
构成关键调控基因对靶基因的重要性值。
[0027]进一步的,步骤4.4将关键调控基因对靶基因的重要性值排序,得到一个有序的关键调控基因的重要性列表F1具体公式为:
[0028]F1=α1·
F
XGB
+α2·
F
LG
+α3·
F
CB
[0029]其中,α1、α2、α3为权重系数。
[0030]进一步的,步骤1中获取联合概率分布函数p(x,y)的估计值o(x,y)的公式为:
[0031][0032]其中,g为第(x,y)个网格中的数据点数,G为总的数据点数。
[0033]进一步的,步骤2中确定基因x和基因y表达值之间的互信息I(X;Y)的公式为:
[0034][0035]其中,X和Y分别为基因x和基因y表达值的列向量,p(x)和p(y)是X和Y的边缘概率分布函数。
[0036]进一步的,步骤3在不同网格中利用互信息I(X;Y)获得基因间最大互信息系数MIC(X;Y)的公式为:
[0037][0038]其中min(X,Y)代表取X与Y的最小值,其中X为网格X方向被分段的数量,Y为网格Y方向被分段的数量。
[0039]有益效果:本方法针对大规模基因调控网络中关键调控基因的稀疏性,首先构建
关键调控基因识别算法降低候选基因维度,排除冗余基因表达信息,有效提高了计算效率;之后再利用关键调控基因重要性融合算法和基因调控关系约简算法来准确推断基因间的调控关系,可以提高推断调控关系的准确度。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本专利技术推断方法流程图;
[0042]图2为使用本专利技术的基因间最大互信息系数仿真效果图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向大规模基因调控网络的智能推断方法,其特征在于,包括:步骤1,在基因表达数据点分布的两维空间中,使用m*n的网格划分数据空间,使落在第(x,y)格子中的数据点的频率作为联合概率分布函数p(x,y)的估计值o(x,y);步骤2,利用联合概率分布函数p(x,y)的估计值o(x,y)确定基因x和基因y表达值之间的互信息I(X;Y);步骤3,在不同网格中利用互信息I(X;Y)计算最大互信息系数MIC(X;Y),筛选出调控基因集X中关于靶基因Y的关键调控基因集R;步骤4,利用关键调控基因重要性融合算法计算关键调控基因集R中的调控基因对靶基因的重要性,获得重要性矩阵I;步骤5,在重要性矩阵I中保留控制强度超过设定阈值的调控关系,控制强度超过设定阈值的调控关系构成基因调控网络。2.如权利要求1所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤4具体为:步骤4.1,整合基因真实表达数据中的时间序列数据和平稳状态数据及关键调控基因集R,获得用于建模的基因表达数据集;步骤4.2,将基因表达数据集分解为P个子集,每一个子集均有一个靶基因;步骤4.3,在每个子集中,分别运用XGBoost、LightGBM和CatBoost算法建立树模型学习非线性函数,计算得到关键调控基因对靶基因的重要性值;步骤4.4,将关键调控基因对靶基因的重要性值排序,得到一个有序的关键调控基因的重要性列表F1;步骤4.5,重复4.3和4.4,依据基因编号将P个重要性列表合成为重要性矩阵I。3.如权利要求2所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤3筛选出调控基因集X中关于靶基因Y的关键调控基因集R具体为:步骤3.1:给定基因真实表达数据,其中基因真实表达数据共有S个样本和G个基因,依次选取一个基因作为靶基因j,剩下的基因作为候选调控基因;步骤3.2:获取给定靶基因j与候选调控基因之间的最大信息系数MIC(X;Y),选取阈值剔除冗余调控基因,得到给定靶基因的关键调控基因列表R
j
;步骤3.3:重复步骤3.1和步骤3.2,得到所有靶基因的关键调控基因集R。4.如权利要求3所述...

【专利技术属性】
技术研发人员:马宝山吴一铭宓东宁乔张萌
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1