增强子预测模型训练方法、识别方法及可读存储介质技术

技术编号:35274326 阅读:38 留言:0更新日期:2022-10-19 10:51
本发明专利技术公开了一种增强子预测模型训练方法,包括:获取增强子序列的样本集;根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集;对所述序列特征集进行融合与优化,得到优化特征集;将所述优化特征集导入分类机进行训练,得到增强子预测模型。解决现存无法针对性的预测增强子,和训练模型的精确度不高的的技术问题,通过这种方式,能够充分特征提取的优势,避免维度灾难与模型的过拟合的问题,导入分类机进行训练后,提高了模型的鲁棒性,而且显著提高了对增强子及其强度识别的准确性。确性。确性。

【技术实现步骤摘要】
增强子预测模型训练方法、识别方法及可读存储介质


[0001]本专利技术属于生物信息领域,具体涉及一种增强子模型训练方法、识别方法及可读存储介质。

技术介绍

[0002]目前,氨基酸序列,即其一级结构,通过对相应基因的研究,比较容易获悉,但蛋白因为高级结构在折叠上的复杂性,很难通过氨基酸序列来预测其功能。近年来,随着人工智能技术的发展,研究人员运用人工智能的方法研究蛋白氨基酸序列,从而预测蛋白的功能和高级结构特征等。现有的研究方法包括支持向量机,随机森林等常规识别方法,但目前的大多数训练模型的方法,以及得到的预测模型,无法针对性的预测或识别增强子以及它的特征,也因为无法解决多种特征提取方法会产生较高纬度的特征集,继而会导致特征空间发生维度灾难与模型的过拟合的问题,从而使得训练模型的精确度不高。

技术实现思路

[0003]有鉴于现有技术的上述缺陷,本专利技术公开了,以解决现存无法针对性的预测增强子,和训练模型的精确度不高的的技术问题。
[0004]为实现上述目的,根据本专利技术的实施例,本专利技术提供了一种增强子预测模型训练本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种增强子预测模型训练方法,其特征在于,包括:获取增强子序列的样本集;根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集;对所述序列特征集进行融合与优化,得到优化特征集;将所述优化特征集导入分类机进行训练,得到增强子预测模型。2.根据权利要求1所述增强子预测模型训练方法,其特征在于,获取增强子序列的样本集,其中,所述样本集包括:均带有标注的增强子序列样本集、非增强子样本集、强增强子序列样本集与弱增强子序列样本集。3.根据权利要求1所述增强子预测模型训练方法,其特征在于,根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集,其中,所述特征提取算法包括:Kmer、Nucleotide Binary Profiles(NBP)和Accumulated Nucleotide Frequency(ANF)算法。4.根据权利要求1

3任一项所述增强子预测模型训练方法,其特征在于,对所述序列特征集进行融合与优化,得到优化特征集,包括如下步骤:对所述序列特征集进行融合,得到融合特征集;根据LGBM算法对融合特征集进行筛选,得到筛选特征集;根据所述特征提取算法对筛选特征集进行拆分,分别得到与特征提取算法相应的拉普拉斯矩阵L
m
;根据拉普拉斯矩阵L
m
,得到优化特征集。5.根据权利要求4所述增强子预测模型训练方法,其特征在于,根据LGBM算法对所述融合特征集进行优化,得到得到优化特征集,其中,所述LGBM算法设置方式:boosting的类型为gbdt,学习率为0.05,每棵树的最大深度为10,每个树的最多叶子树为30,每次建立一颗新树随机使用50%的样本数据集,每次进行bagging时随机使用80%的样本,每次建立12棵树时进行一次bagging。6.根据权利要求1
‑<...

【专利技术属性】
技术研发人员:邹权丁漪杰
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1