The invention provides a method for constructing gene regulatory network based on integrated feature importance and chicken flock algorithm, which belongs to the field of informatics. The method involves sorting the importance scores of all potential regulators of each target gene in the target gene network by using chicken flock optimization selection algorithm, screening the optimal regulator subset, and establishing an optimized gene regulatory network. The feasibility of this method is verified by reverse engineering evaluation and method dialog. It is verified that the combination of integrated feature selection algorithm and chicken swarm algorithm can achieve higher average accuracy and lower average recall rate than only using integrated feature selection method to predict gene regulatory relationship.
【技术实现步骤摘要】
一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
本专利技术涉及一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,属于生物信息学领域,涉及集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行重要性分值排序及鸡群优化选择算法,筛选出最优的调控者子集,建立基因调控网络。
技术介绍
随着生物信息技术的快速发展,基因组数据引起了研究者的关注,目的是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种背景下,系统生物学得到了快速发展。在系统生物学领域,挑战之一就是基因调控网络的构建,基因调控网络以图形化的方式描述了基因之间的相互作用,通过逆向工程构建出基因调控网络可以帮助我们更好的理解当环境条件发生波动时生物体内仍能保持稳定的分子机制。随着DNA微阵列技术的发展,快速积累的基因表达数据,出现了大量的构建基因调控网络的方法。此外,基因序列数据和功能注释数据等也在不断涌现。不同类型数据往往提供了不同的信息,如何有效的利用多种数据源之间的互补性,对于准确构建基因调控网络至关重要。针对基因调控网络构建过程中基因调控网络构建的不足,即往往仅给出网络中每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构,针对基于基因表达数据进行改进。
技术实现思路
本专利技术的目的是针对基因调控网络构建过程中基因调控网络构建的不足,提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法。本专利技术的目的是这样实现的:提供一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,所述方法包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表 ...
【技术保护点】
1.一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表达数据集;步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度;步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;步骤四:在逆向工程评估与方法对话数据集上的实验结果验证该方法的有效性。
【技术特征摘要】
1.一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:包括如下步骤:步骤一:对于目标基因网络中的基因,获得其基因表达数据集;步骤二:利用集成特征选择方法为目标基因网络中的每个目标基因的所有潜在调控者进行一个重要性分值并排序,该重要性分值代表在该调控基因和目标基因间存在真实调控关系的可信度;步骤三:将得到的重要性较高的调控者利用鸡群算法筛选出最优的调控者子集,建立基因调控网络;步骤四:在逆向工程评估与方法对话数据集上的实验结果验证该方法的有效性。2.根据权利要求1所述的一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:步骤一中首先将基因表达数据集定义为学习样本(LearningSample,LS),该学习样本是一个S×G的矩阵,每行代表一条样本,每条样本是全部G个基因在该样本中的表达值,x代表基因g在样本s中的表达值,将该学习样本和可选的调控因子列表作为输入,输出是一个有向完全图,每个节点代表一个基因,从节点i指向节点j,的边表示基因i调控基因j的表达,对于网络中每一条边,都有一个分值标识这条边真实存在的可能性。3.根据权利要求1所述的一种基于集成特征重要性和鸡群算法的基因调控网络构建方法,其特征在于:步骤一中给目标基因的潜在调控因子提供排序,流程如下:①对于基因i,i=1,2,…,I(a)对学习样本LS-t和目标向量LSt进行无放回的采样,得到一个样本容量(行)为x的子学习样本LS-t_x以及目标向量LSt_x,样本容量x是一个均匀随机产生的介于Xmin和Xmax之间的整数,Xmin是学习子样本的容量最小值,Xmax是学习子样本的容量最大值;(b)对学习子样本LS-t_x进行进一步删减,对所有可能的基因(列)进行无放回的采样得到y个候选基因,得到学习样本LS-t_x_y,候选基因个数y是一个均匀产生的介于Ymin和Ymax之间的整数,Ymin是候选基因个数...
【专利技术属性】
技术研发人员:吴金秋,刘浩源,于培文,于庆龙,王凤池,田丙奇,赵振纲,陈立柱,李钢,
申请(专利权)人:唐山照澜海洋科技有限公司,
类型:发明
国别省市:河北,13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。