【技术实现步骤摘要】
一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质
[0001]本专利技术涉及一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质,属于生物信息学
技术介绍
[0002]增强子位于结构基因附近,是一类远端顺式作用的DNA调节元件。增强子在不同时间调节不同细胞系中的基因表达中起着至关重要的作用。它们在真核发育过程中通过结合转录因子、辅因子以及染色质复合物作用于启动子,通过增加启动子的转录活性,来增加基因转录的频率。增强子相关染色质修饰成分和基因组非编码区的突变可能导致疾病。因此,从DNA序列中识别增强子对于疾病治疗和药物靶点至关重要。但是,增强子自由分布在基因组的非编码区,没有特定的序列特征,并且远离目标启动子,因此增强子的识别仍具有一定的挑战。
[0003]早期的研究通过生物实验来识别增强子,昂贵且耗时。后来的研究通过增强子附近或内部的生物信号来识别增强子,但是此类研究通常依赖于多种复杂的功能基因组信号,例如组蛋白修饰数据,调控因子结合数据,染色质的可及行相关数据等 ...
【技术保护点】
【技术特征摘要】
1.一种基于stacking集成学习的增强子的预测方法,其特征在于,包括:采用若干种方法对DNA序列进行特征提取,分别生成一组特征向量;然后对生成的若干组特征向量进行特征融合,得到特征矩阵;构建的stacking集成学习模型;训练stacking集成学习模型;将待检测的DNA序列经过特征提取、特征融合得到特征矩阵后输入训练好的stacking集成学习模型,进行增强子和增强子类型检测,得到预测结果。2.根据权利要求1所述的一种基于stacking集成学习的增强子的预测方法,其特征在于,采用若干种方法对DNA序列进行特征提取,分别生成一组特征向量;然后对生成的若干组特征向量进行特征融合,得到特征矩阵;具体包括:采用Kmer法、伪二核苷酸组成(PseDNC)法、平行相关伪二核苷酸组成(PC
‑
PseDNC)法和相位特异性单核苷酸频率的Z曲线参数(Z_curve_9bit)法对DNA序列进行特征提取,得到四组特征向量,然后将四组特征向量融合在一起生成特征矩阵;特征矩阵构成数据集,数据集分为训练集和测试集,训练集用来训练stacking集成学习模型,测试集用来测试stacking集成学习模型。3.根据权利要求1所述的一种基于stacking集成学习的增强子的预测方法,其特征在于,构建的stacking集成学习模型的具体过程为:stacking集成学习模型包括基模型和元模型,基模型用于对原始特征的重新转换,元模型用于对不同的基分类器对同一数据集的不同决策能力进行集成,以此提高stacking集成学习模型的预测的性能;使用K近邻(KNN)算法构建了5个不同参数的基分类器作为stacking集成学习模型的基模型,不同基分类器之间相互独立,在训练时并行计算;基分类器的参数包括n_neighbors、leaf_size、weight和p,n_neighbors即为K值,通过设置不同的K值使得KNN模型达到不同的效果;leaf_size是计算树算法的叶子节点数目;weight用于标识每个样本的近邻样本的权重;p表示距离度量,p=1表示曼哈顿距离;对于一组分类数据,计算在多维空间中的样本点之间的距离,然后进行排序,根据所选的K值来判断该样本点属于样本多的那一类别,对于样本点之间距离的计算;使用逻辑回归(LR)算法构建元模型;采用逻辑回归算法构建元模型,最大迭代次数为50000,惩罚项为l2正则化,正则化系数C为1.0,求解最优化问题的方法为sag法,对于多分类问题的策略直接采用多分类逻辑回归策略;stacking集成学习模型中基模型的输入数据为特征矩阵,由5个基分类器进行并行学习,并使用这5个训练好的基分类器对测试数据进行预测,将预测的结果作为元模型的输入数据,元模型学习后的预测结果即为stacking模型的预测结果。4.根据权利要求3所述的一种基于stacking集成学习的增强子的预测方法,其特征在于,当stacking集成学习模型对增强子识别和增强子类型的进行预测时,基分类器设置了不同的K值,当进行增强子识别时,五个不同的基分类器的K值分别为17、18、19、20、23;当进行增强子类型的实验预测时,五个不同的基分类器的K值分别为2、4、5、6、8。5.根据权利要求1所述的一种基于stacking集成学习的增强子的预测方法,其特征在
于,stacking集成学习模型的训练过程如下:步骤1:训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。