增强子预测模型训练方法、识别方法及可读存储介质技术

技术编号：35274326 阅读：38 留言：0更新日期：2022-10-19 10:51

本发明专利技术公开了一种增强子预测模型训练方法，包括：获取增强子序列的样本集；根据特征提取算法对所述样本集进行序列特征提取，得到序列特征集；对所述序列特征集进行融合与优化，得到优化特征集；将所述优化特征集导入分类机进行训练，得到增强子预测模型。解决现存无法针对性的预测增强子，和训练模型的精确度不高的的技术问题,通过这种方式，能够充分特征提取的优势，避免维度灾难与模型的过拟合的问题，导入分类机进行训练后，提高了模型的鲁棒性，而且显著提高了对增强子及其强度识别的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
增强子预测模型训练方法、识别方法及可读存储介质

[0001]本专利技术属于生物信息领域，具体涉及一种增强子模型训练方法、识别方法及可读存储介质。

技术介绍

[0002]目前，氨基酸序列，即其一级结构，通过对相应基因的研究，比较容易获悉，但蛋白因为高级结构在折叠上的复杂性，很难通过氨基酸序列来预测其功能。近年来，随着人工智能技术的发展，研究人员运用人工智能的方法研究蛋白氨基酸序列，从而预测蛋白的功能和高级结构特征等。现有的研究方法包括支持向量机，随机森林等常规识别方法，但目前的大多数训练模型的方法，以及得到的预测模型，无法针对性的预测或识别增强子以及它的特征，也因为无法解决多种特征提取方法会产生较高纬度的特征集，继而会导致特征空间发生维度灾难与模型的过拟合的问题，从而使得训练模型的精确度不高。

技术实现思路

[0003]有鉴于现有技术的上述缺陷，本专利技术公开了，以解决现存无法针对性的预测增强子，和训练模型的精确度不高的的技术问题。
[0004]为实现上述目的，根据本专利技术的实施例，本专利技术提供了一...

【技术保护点】

【技术特征摘要】
1.一种增强子预测模型训练方法，其特征在于，包括：获取增强子序列的样本集；根据特征提取算法对所述样本集进行序列特征提取，得到序列特征集；对所述序列特征集进行融合与优化，得到优化特征集；将所述优化特征集导入分类机进行训练，得到增强子预测模型。2.根据权利要求1所述增强子预测模型训练方法，其特征在于，获取增强子序列的样本集，其中，所述样本集包括：均带有标注的增强子序列样本集、非增强子样本集、强增强子序列样本集与弱增强子序列样本集。3.根据权利要求1所述增强子预测模型训练方法，其特征在于，根据特征提取算法对所述样本集进行序列特征提取，得到序列特征集，其中，所述特征提取算法包括：Kmer、Nucleotide Binary Profiles(NBP)和Accumulated Nucleotide Frequency(ANF)算法。4.根据权利要求1
‑
3任一项所述增强子预测模型训练方法，其特征在于，对所述序列特征集进行融合与优化，得到优化特征集，包括如下步骤：对所述序列特征集进行融合，得到融合特征集；根据LGBM算法对融合特征集进行筛选，得到筛选特征集；根据所述特征提取算法对筛选特征集进行拆分，分别得到与特征提取算法相应的拉普拉斯矩阵L
m
；根据拉普拉斯矩阵L
m
，得到优化特征集。5.根据权利要求4所述增强子预测模型训练方法，其特征在于，根据LGBM算法对所述融合特征集进行优化，得到得到优化特征集，其中，所述LGBM算法设置方式：boosting的类型为gbdt，学习率为0.05，每棵树的最大深度为10，每个树的最多叶子树为30，每次建立一颗新树随机使用50％的样本数据集，每次进行bagging时随机使用80％的样本，每次建立12棵树时进行一次bagging。6.根据权利要求1
‑<...

【专利技术属性】
技术研发人员：邹权，丁漪杰，
申请(专利权)人：电子科技大学长三角研究院衢州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人