基于频繁模式和机器学习双推荐制的核定位信号预测算法制造技术

技术编号：20871286 阅读：31 留言：0更新日期：2019-04-17 10:20

本发明专利技术涉及蛋白质生物学领域，具体涉及一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。本发明专利技术公开了两种模型，分别为基于频繁模式的NLS预测算法构建的模型和基于机器学习的NLS预测算法构建的模型。其中，第一种模型主要是利用PrefixSpan算法思想，以此挖掘出在核序列数据库中富集而在非核序列数据库中稀疏的一些频繁基序，对频繁基序进行一定筛选与评价，得到候选NLS。第二种模型则主要是综合以词向量为特征的SVM，基于统计的线性分类，失调分数以及PSSM矩阵的单个蛋白质序列预测NLS算法，该算法的击中率和冗余性得到了一定的改善。本发明专利技术不仅提高了NLS预测精度，更能发现一些不受已知NLS限制的特殊NLS。

全部详细技术资料下载

【技术实现步骤摘要】
基于频繁模式和机器学习双推荐制的核定位信号预测算法
本专利技术涉及蛋白质生物学领域，具体地说，特别涉及到一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。
技术介绍
核定位信号是与载体蛋白结合的蛋白质肽，用于将核蛋白运输到细胞核中，其作为核定位的重要信息。核定位序列NLS的鉴定可以帮助阐明蛋白质功能。然而，这种信号的实验鉴定是昂贵的，目前只有有限数量的核定位序列NLS被确定。因此开发用于核定位序列NLS的计算预测的算法是重要的。目前已经有了几种NLS预测方法，如PSORTII，PredictNLS，NLStradamus，cNLSMapper，NucImport和seqNLS等。PSORTII根据序列模式预测NLSs，根据NLS的分类实现为三个简单规则，该规则主要是碱性氨基酸K和R的聚簇以及聚类之间的空隙。PredictNLS则是基于194个潜在的NLS基序来预测NLS，这些基序是从114个实验验证的NLSs中用silico诱变方法得到的。NLStradamus算法通过NLS倾向于具有与背景残基不同的残基频率分布，使用简单的二态或四态HMM来检测NLS适应频率变化。cNLSMapper通过活性谱来计算肽链中每个残基功能贡献的总和来估计肽的经典NLS(cNLS)功能性。NucImport建立了一个贝叶斯网络，通过结合与核输入有关的各种属性来预测核定位，如果蛋白质被预测为核蛋白质，则基于与贝叶斯网络中的其他属性的依赖关系，将其NLS的位置预测为候选cNLS中具有最高cNLS评分的蛋白质中的区段。seqNLS则是通过挖掘已知NLS中的频繁词，将频繁词在查询...

【技术保护点】
1.一种基于频繁模式和机器学习双推荐制的核定位信号预测算法，其特征在于，包括如下步骤：S1、组建核定位信号训练集与非核定位信号训练集，分别作为正负样本；S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征；S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M；S4、用SVM中的RBF函数训练模型训练词向量特征，得到最佳SVM模型；S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C，构建线性打分PC模型；S6、对于查询序列，滑动窗口切分输入的序列，得到一系列片段，计算这些片段的平均保守分数R，将R的极值对应的序列作为候选NLS；S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选，得到M在100到160之间的候选集，再将筛选后的候选集经由基于机器学习的核定位信号预测算法构建的模型得到对应的NLS分数，记作G2；S8、将G2分数超过设定阈值的候选集进行片段拼接，拼接结果即为基于机器学习模型预测的NLS；S9、对于查询序列，将它经由基于频繁模式的核定位信号预测算法构建的模型得到一系列...

【技术特征摘要】
1.一种基于频繁模式和机器学习双推荐制的核定位信号预测算法，其特征在于，包括如下步骤：S1、组建核定位信号训练集与非核定位信号训练集，分别作为正负样本；S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征；S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M；S4、用SVM中的RBF函数训练模型训练词向量特征，得到最佳SVM模型；S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C，构建线性打分PC模型；S6、对于查询序列，滑动窗口切分输入的序列，得到一系列片段，计算这些片段的平均保守分数R，将R的极值对应的序列作为候选NLS；S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选，得到M在100到160之间的候选集，再将筛选后的候选集经由基于机器学习的核定位信号预测算法构建的模型得到对应的NLS分数，记作G2；S8、将G2分数超过设定阈值的候选集进行片段拼接，拼接结果即为基于机器学习模型预测的NLS；S9、对于查询序列，将它经由基于频繁模式的核定位信号预测算法构建的模型得到一系列候选NLS及其对应的NLS分数，记作G1，超过富集分数E′S阈值或超过G1阈值的候选NLS即为基于频繁模式模型预测的NLS；S10、由用户选择推荐方式，在对应推荐方式下的候选NLS作为预测的NLS。2.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法，其特征在于，步骤S1中所述组建核定位信号训练集与非核定位信号训练集的方法为从NLSdb2003年版以及2017年版的数据库中选择具有亲本蛋白、有特定形式且被实验验证的145个NLS作为正样本，负样本与正样本长度一一对应且来自同一个序列。3.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法，其特征在于，步骤S2中所述的词向量模型为XiaofengFu的“PredictionoftypeIIIsecretedeffectorsbasedonword-embeddingsforproteinsequences”中的词向量模型，数据库是UniRef50，滑动窗口是3。4.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法，其特征在于，步骤S5的具体方法如下：S51、分别计算正负样本的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C；S52、将所得的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C加上正负类标签，利用极端随机树分析得到三个特征的权重；S53、根据平均疏水值H越小越好，甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C越大越好的NLS特性，将它们分别线性映射到0.5到1之间的值，得到三个线性函数；H＝0.5*(max(H+)-H)/(max(H+)-min(H+))+0.5GB＝0.5*(GB-min(GB+))/(max(GB+)-min(GB+))+0.5C＝0.5*(C-min(C+))/(max(C+)-min(C+))+0.5其中，H+、GB+和C+分别为正样本的平均每个氨基酸的疏水值H、甘氨酸与碱性氨基酸个数差值的绝对值GB、平均每个氨基酸的等电点C；S54、根据三个线性函数，结合S52中三个特征的权重，进行加权求和，得到最终的线性打分PC模型。5.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法，其特征在于，步骤S6的具体方法如下：S61、生成PSSM矩阵；首先输入氨基酸序列通过BLAST+软件套装中的psiblast软件在uniref90数据库...

【专利技术属性】
技术研发人员：沈红斌，郭芸，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人