一种基于集成特征重要性和鸡群算法的基因调控网络构建方法技术

技术编号:20285880 阅读:21 留言:0更新日期:2019-02-10 18:09
本发明专利技术提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,属于信息学领域,涉及集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行重要性分值排序后利用鸡群优化选择算法,筛选最优的调控者子集,建立优化的基因调控网络,通过逆向工程评估与方法对话对该方法的可行性进行了验证,验证了集成特征选择算法和鸡群算法结合可得到比仅仅利用集成特征选择方法预测基因调控关系更高的平均准确率,更低的平均召回率。

A Gene Regulation Network Construction Method Based on Integrated Characteristic Importance and Chicken Colony Algorithms

The invention provides a method for constructing gene regulatory network based on integrated feature importance and chicken flock algorithm, which belongs to the field of informatics. The method involves sorting the importance scores of all potential regulators of each target gene in the target gene network by using chicken flock optimization selection algorithm, screening the optimal regulator subset, and establishing an optimized gene regulatory network. The feasibility of this method is verified by reverse engineering evaluation and method dialog. It is verified that the combination of integrated feature selection algorithm and chicken swarm algorithm can achieve higher average accuracy and lower average recall rate than only using integrated feature selection method to predict gene regulatory relationship.

【技术实现步骤摘要】
一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
本专利技术涉及一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,属于生物信息学领域,涉及集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行重要性分值排序及鸡群优化选择算法,筛选出最优的调控者子集,建立基因调控网络。
技术介绍
随着生物信息技术的快速发展,基因组数据引起了研究者的关注,目的是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种背景下,系统生物学得到了快速发展。在系统生物学领域,挑战之一就是基因调控网络的构建,基因调控网络以图形化的方式描述了基因之间的相互作用,通过逆向工程构建出基因调控网络可以帮助我们更好的理解当环境条件发生波动时生物体内仍能保持稳定的分子机制。随着DNA微阵列技术的发展,快速积累的基因表达数据,出现了大量的构建基因调控网络的方法。此外,基因序列数据和功能注释数据等也在不断涌现。不同类型数据往往提供了不同的信息,如何有效的利用多种数据源之间的互补性,对于准确构建基因调控网络至关重要。针对基因调控网络构建过程中基因调控网络构建的不足,即往往仅给出网络中每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构,针对基于基因表达数据进行改进。
技术实现思路
本专利技术的目的是针对基因调控网络构建过程中基因调控网络构建的不足,提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法。本专利技术的目的是这样实现的:提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,所述方法包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表达数据集;步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度;步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;步骤四:在逆向工程评估与方法对话数据集上的实验结果验证该方法的有效性。在一个实施方案中,本专利技术的方法还包括这样一些特征:1.步骤二中首先将基因表达数据集定义为学习样本(LearningSample,LS),该学习样本是一个S×G的矩阵,每行代表一条样本,每条样本是全部G个基因在该样本中的表达值,x代表基因g在样本s中的表达值,将该学习样本和可选的调控因子列表作为输入,输出是一个有向完全图,每个节点代表一个基因,从节点i指向节点j,的边表示基因i调控基因j的表达,对于网络中每一条边,都有一个分值标识这条边真实存在的可能性。2.步骤二中给目标基因的潜在调控因子提供排序,流程如下:①对于基因i,i=1,2,…,I(a)对学习样本LS-t和目标向量LSt进行无放回的采样,得到一个样本容量(行)为x的子学习样本LS-t_x以及目标向量LSt_x,样本容量x是一个均匀随机产生的介于Xmin和Xmax之间的整数,Xmin是学习子样本的容量最小值,Xmax是学习子样本的容量最大值。(b)对学习子样本LS-t_x进行进一步删减,对所有可能的基因(列)进行无放回的采样得到y个候选基因,得到学习样本LS-t_x_y,候选基因个数y是一个均匀产生的介于Ymin和Ymax之间的整数,Ymin是候选基因个数的最小值,Ymax是候选基因个数的最大值。(c)对学习子样本LS-t_x_y和目标向量LSt_x利用特征选择方法对y个候选基因进行排序,预测能力越高的候选基因排名越靠前。(d)根据选定的参数Z,对排名前Z的候选基因赋予分值l,其余的赋予分值0,得到一个结果矩阵Mr×t,r是调控因子的个数,t是目标基因的个数,矩阵元素mi,j的取值为1或0,即在本次回归分析中调控因子i是否调控目标基因j。②将步骤1经过n次迭代计算后得到n个结果矩阵,将所有的结果矩阵进行相加作为最终的结果矩阵M,矩阵元素m代表了调控因子i调控目标基因j的可能性,值越大则该调控关系越可靠。3.步骤三中利用鸡群算法筛选出最优的调控者子集,建立基因调控网络,流程如下:对每个目标基因选取可信度较高的调控因子,利用鸡群算法对选取的调控因子集合进行进一步筛选,选择最优的特征子集作为最终的该目标基因的调控基因。对每个目标基因,鸡群算法首先生成初始种群,种群中的个体是一条0.1字符串,每条个体都代表了算法的一种可能解,即为目标基因选取的最终的调控因子情况,下标i的元素值为1表示第i个调控因子调控目标基因,否则不存在调控关系。利用下述公式建立统计模型模拟目标基因i的表达值和每条个体中选中的调控者表达值()的关系4.步骤四中在逆向工程评估与方法对话(DialogueforReverseEngineeringAssessmentsandMethods,DREAM)数据集上的实验结果验证,包括如下几方面:预测结果可以分为四类:真阳类(TruePositive,TP),真阴类(TrueNegative,TN)、假阳类(FalsePositive,FP)和假阴类(FalseNegative,FN)。利用三个指标评估EFI-CSO算法的性能:准确率(Precision)、召回率(Recall)和F值。其中,与现有技术相比,本专利技术的有益效果是:本专利技术通过逆向工程评估与方法对话对该方法的可行性进行了验证。结果表明集成特征选择算法和鸡群算法结合后,可以得到比仅仅利用集成特征选择方法预测基因调控关系更高的平均准确率,更低的平均召回率,而平均F值也要高于或接近集成特征选择方法的平均F值。由于F值能更平衡的评估算法的预测能力,因此在保持F值或更高F值的基础上,得到更高的准确率更有意义。在基因调控网络的构建过程中考虑多集成特征重要性算法有助于提高建网的准确率。附图说明图1是学习样本图;图2是EFI-CSO算法流程图。具体实施方式下面结合附图与具体实施方式对本专利技术作进一步详细描述。在基因调控网络构建过程中仅给出每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构,针对基于基因表达数据,本专利技术人利用特征选择方法进行改进。本专利技术提出了集成特征重要性鸡群算法(EnsembleFeatureImportance.ChickenSwarmOptimizationAlgorithm,EFI,CSO),结合集成特征选择算法和鸡群算法构建基因调控网络。首先利用集成特征选择方法为目标基因的每个潜在调控者计算一个重要性分值,该分值表示在该调控基因和目标基因间存在真实调控关系的可信度。然后利用鸡群算法在具有较高可信度的调控者中筛选出最优的调控者子集。在逆向工程评估与方法对话数据集上进行实验,对该方法进行验证。在本专利技术中,目标基因网络中的基因根据所感兴趣的基因进行选择。基因网络可以来自于DREAM数据集,该数据集旨在为调控网络构建的研究者提供基因表达数据集和对应的基准网络去验证算法的有效性。本专利技术包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表达数据集。对于目标基因网络中的基因,设计芯片,提取不同的样本进行基因芯片测定,获得其基因表达数据集。步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实本文档来自技高网...

【技术保护点】
1.一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表达数据集;步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度;步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;步骤四:在逆向工程评估与方法对话数据集上的实验结果验证该方法的有效性。

【技术特征摘要】
1.一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表达数据集;步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度;步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;步骤四:在逆向工程评估与方法对话数据集上的实验结果验证该方法的有效性。2.根据权利要求1所述的一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:步骤一中首先将基因表达数据集定义为学习样本(LearningSample,LS),该学习样本是一个S×G的矩阵,每行代表一条样本,每条样本是全部G个基因在该样本中的表达值,x代表基因g在样本s中的表达值,将该学习样本和可选的调控因子列表作为输入,输出是一个有向完全图,每个节点代表一个基因,从节点i指向节点j,的边表示基因i调控基因j的表达,对于网络中每一条边,都有一个分值标识这条边真实存在的可能性。3.根据权利要求1所述的一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:步骤一中给目标基因的潜在调控因子提供排序,流程如下:①对于基因i,i=1,2,…,I(a)对学习样本LS-t和目标向量LSt进行无放回的采样,得到一个样本容量(行)为x的子学习样本LS-t_x以及目标向量LSt_x,样本容量x是一个均匀随机产生的介于Xmin和Xmax之间的整数,Xmin是学习子样本的容量最小值,Xmax是学习子样本的容量最大值;(b)对学习子样本LS-t_x进行进一步删减,对所有可能的基因(列)进行无放回的采样得到y个候选基因,得到学习样本LS-t_x_y,候选基因个数y是一个均匀产生的介于Ymin和Ymax之间的整数,Ymin是候选基因个数...

【专利技术属性】
技术研发人员:吴金秋刘浩源于培文于庆龙王凤池田丙奇赵振纲陈立柱李钢
申请(专利权)人:唐山照澜海洋科技有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1