【技术实现步骤摘要】
增强子预测模型训练方法、识别方法及可读存储介质
[0001]本专利技术属于生物信息领域,具体涉及一种增强子模型训练方法、识别方法及可读存储介质。
技术介绍
[0002]目前,氨基酸序列,即其一级结构,通过对相应基因的研究,比较容易获悉,但蛋白因为高级结构在折叠上的复杂性,很难通过氨基酸序列来预测其功能。近年来,随着人工智能技术的发展,研究人员运用人工智能的方法研究蛋白氨基酸序列,从而预测蛋白的功能和高级结构特征等。现有的研究方法包括支持向量机,随机森林等常规识别方法,但目前的大多数训练模型的方法,以及得到的预测模型,无法针对性的预测或识别增强子以及它的特征,也因为无法解决多种特征提取方法会产生较高纬度的特征集,继而会导致特征空间发生维度灾难与模型的过拟合的问题,从而使得训练模型的精确度不高。
技术实现思路
[0003]有鉴于现有技术的上述缺陷,本专利技术公开了,以解决现存无法针对性的预测增强子,和训练模型的精确度不高的的技术问题。
[0004]为实现上述目的,根据本专利技术的实施例,本专利技术提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种增强子预测模型训练方法,其特征在于,包括:获取增强子序列的样本集;根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集;对所述序列特征集进行融合与优化,得到优化特征集;将所述优化特征集导入分类机进行训练,得到增强子预测模型。2.根据权利要求1所述增强子预测模型训练方法,其特征在于,获取增强子序列的样本集,其中,所述样本集包括:均带有标注的增强子序列样本集、非增强子样本集、强增强子序列样本集与弱增强子序列样本集。3.根据权利要求1所述增强子预测模型训练方法,其特征在于,根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集,其中,所述特征提取算法包括:Kmer、Nucleotide Binary Profiles(NBP)和Accumulated Nucleotide Frequency(ANF)算法。4.根据权利要求1
‑
3任一项所述增强子预测模型训练方法,其特征在于,对所述序列特征集进行融合与优化,得到优化特征集,包括如下步骤:对所述序列特征集进行融合,得到融合特征集;根据LGBM算法对融合特征集进行筛选,得到筛选特征集;根据所述特征提取算法对筛选特征集进行拆分,分别得到与特征提取算法相应的拉普拉斯矩阵L
m
;根据拉普拉斯矩阵L
m
,得到优化特征集。5.根据权利要求4所述增强子预测模型训练方法,其特征在于,根据LGBM算法对所述融合特征集进行优化,得到得到优化特征集,其中,所述LGBM算法设置方式:boosting的类型为gbdt,学习率为0.05,每棵树的最大深度为10,每个树的最多叶子树为30,每次建立一颗新树随机使用50%的样本数据集,每次进行bagging时随机使用80%的样本,每次建立12棵树时进行一次bagging。6.根据权利要求1
‑<...
【专利技术属性】
技术研发人员:邹权,丁漪杰,
申请(专利权)人:电子科技大学长三角研究院衢州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。