基于频繁模式和机器学习双推荐制的核定位信号预测算法制造技术

技术编号:20871286 阅读:31 留言:0更新日期:2019-04-17 10:20
本发明专利技术涉及蛋白质生物学领域,具体涉及一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。本发明专利技术公开了两种模型,分别为基于频繁模式的NLS预测算法构建的模型和基于机器学习的NLS预测算法构建的模型。其中,第一种模型主要是利用PrefixSpan算法思想,以此挖掘出在核序列数据库中富集而在非核序列数据库中稀疏的一些频繁基序,对频繁基序进行一定筛选与评价,得到候选NLS。第二种模型则主要是综合以词向量为特征的SVM,基于统计的线性分类,失调分数以及PSSM矩阵的单个蛋白质序列预测NLS算法,该算法的击中率和冗余性得到了一定的改善。本发明专利技术不仅提高了NLS预测精度,更能发现一些不受已知NLS限制的特殊NLS。

【技术实现步骤摘要】
基于频繁模式和机器学习双推荐制的核定位信号预测算法
本专利技术涉及蛋白质生物学领域,具体地说,特别涉及到一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。
技术介绍
核定位信号是与载体蛋白结合的蛋白质肽,用于将核蛋白运输到细胞核中,其作为核定位的重要信息。核定位序列NLS的鉴定可以帮助阐明蛋白质功能。然而,这种信号的实验鉴定是昂贵的,目前只有有限数量的核定位序列NLS被确定。因此开发用于核定位序列NLS的计算预测的算法是重要的。目前已经有了几种NLS预测方法,如PSORTII,PredictNLS,NLStradamus,cNLSMapper,NucImport和seqNLS等。PSORTII根据序列模式预测NLSs,根据NLS的分类实现为三个简单规则,该规则主要是碱性氨基酸K和R的聚簇以及聚类之间的空隙。PredictNLS则是基于194个潜在的NLS基序来预测NLS,这些基序是从114个实验验证的NLSs中用silico诱变方法得到的。NLStradamus算法通过NLS倾向于具有与背景残基不同的残基频率分布,使用简单的二态或四态HMM来检测NLS适应频率变化。cNLSMapper通过活性谱来计算肽链中每个残基功能贡献的总和来估计肽的经典NLS(cNLS)功能性。NucImport建立了一个贝叶斯网络,通过结合与核输入有关的各种属性来预测核定位,如果蛋白质被预测为核蛋白质,则基于与贝叶斯网络中的其他属性的依赖关系,将其NLS的位置预测为候选cNLS中具有最高cNLS评分的蛋白质中的区段。seqNLS则是通过挖掘已知NLS中的频繁词,将频繁词在查询序列中按一定方式拼接为候选NLS,然后基于线性基序评分。虽然上述NLS预测方法都有一定的成果,但是仍存在各自的不足。例如:PSORTII假阳性较高,而且比对仅限cNLS;PredictNLS假阴性较高,使得一些新型NLS难以被发现;NLStradamus算法的性能取决于NLS具有一定残差分布的假设,然而也有许多的NLS具有非常不同的残基频率;cNLSMapper仅局限于cNLS,且所用的NLS活性来源于酵母,对其他物种的筛选可能有一定的局限性;NucImport也是基于cNLS开发的,对其他NLS具有限制;seqNLS开发基础不是从cNLS出发,也没有局限于物种,有一定的先进性,结果对比于其他软件,表现良好,但没有突出,尤其是基于已知的NLS频繁词的预测,会忽略一些特殊的且不常见的NLS。另外,核定位信号预测存在的最大问题是准确率和召回率的难以调解,由于现有已验证的NLS数目有限且大多富有碱性氨基酸,使得基于机器学习的NLS预测算法倾向于碱性氨基酸较高的NLS。使得只要有碱性氨基酸较多的片段,都很容易认为是NLS,造成冗余性过高,而且忽略一些其他类型的NLS,例如一些不含碱性氨基酸的NLS。
技术实现思路
本专利技术的目的在于针对现有技术中的不足,提供一种基于频繁模式和机器学习双推荐制的核定位信号预测算法,通过设立基于数据库的频繁模式挖掘和基于机器学习的双推荐机制,首先利用数据挖掘知识得到一些在核数据库中频繁出现的基序,以此解决机器学习中倾向性问题,便于发现一些特殊的NLS。然后在基于机器学习建立的打分机制中,综合利用进化信息(PSSM)、失调分数和序列特征信息(词向量)以及统计信息(均值)强化一些筛选条件,以降低冗余性。最后综合两种模型,既能得到一些与已知NLS匹配度较高的NLS,又能发现一些在核序列富含的特殊NLS。同时,本专利技术发现对于一些较长的NLS,得分大多低于其某个子片段,故引入了一些现有类型NLS的模板匹配,提高PY-NLS和双分型NLS的识别准确率,由于单分型NLS较短,且大多数NLS里面包含它们,易于被机器学习发现且得分较高,因此,不加入模板匹配来提升分值。本专利技术所解决的技术问题可以采用以下技术方案来实现:一种基于频繁模式和机器学习双推荐制的核定位信号预测算法,包括如下步骤:S1、组建核定位信号训练集与非核定位信号训练集,分别作为正负样本;S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征;S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M;S4、用SVM中的RBF函数训练模型训练词向量特征,得到最佳SVM模型;S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C,构建线性打分PC模型;S6、对于查询序列,滑动窗口切分输入的序列,得到一系列片段,计算这些片段的平均保守分数R,将R的极值对应的序列作为候选NLS;S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选,得到M在100到160之间的候选集,再将筛选后的候选集经由基于机器学习的核定位信号预测算法构建的模型得到对应的NLS分数,记作G2;S8、将G2分数超过设定阈值的候选集进行片段拼接,拼接结果即为基于机器学习模型预测的NLS;S9、对于查询序列,将它经由基于频繁模式的核定位信号预测算法构建的模型得到一系列候选NLS及其对应的NLS分数,记作G1,超过富集分数E′S阈值或超过G1阈值的候选NLS即为基于频繁模式模型预测的NLS;S10、由用户选择推荐方式,在对应推荐方式下的候选NLS作为预测的NLS。进一步的,步骤S1中所述组建核定位信号训练集与非核定位信号训练集的方法为从NLSdb2003年版以及2017年版的数据库中选择具有亲本蛋白、有特定形式且被实验验证的145个NLS作为正样本,负样本与正样本长度一一对应且来自同一个序列。进一步的,步骤S2中所述的词向量模型为XiaofengFu的“PredictionoftypeIIIsecretedeffectorsbasedonword-embeddingsforproteinsequences”中的词向量模型,数据库是UniRef50,滑动窗口是3。进一步的,步骤S5的具体方法如下:S51、分别计算正负样本的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C;S52、将所得的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C加上正负类标签,利用极端随机树分析得到三个特征的权重;S53、根据平均疏水值H越小越好,甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C越大越好的NLS特性,将它们分别线性映射到0.5到1之间的值,得到三个线性函数;H=0.5*(max(H+)-H)/(max(H+)-min(H+))+0.5GB=0.5*(GB-min(GB+))/(max(GB+)-min(GB+))+0.5C=0.5*(C-min(C+))/(max(C+)-min(C+))+0.5其中,H+、GB+和C+分别为正样本的平均每个氨基酸的疏水值H、甘氨酸与碱性氨基酸个数差值的绝对值GB、平均每个氨基酸的等电点C;S54、根据三个线性函数,结合S52中三个特征的权重,进行加权求和,得到最终的线性打分PC模型。进一步的,步骤S6的具体方法如下:S61、生成PSSM矩阵;首先输入氨基酸序列通过BLAST+软件套装中的psiblast软件在uniref90数据库上的比对生成PSSM特征和比对文件;S62、切分序列本文档来自技高网
...

【技术保护点】
1.一种基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,包括如下步骤:S1、组建核定位信号训练集与非核定位信号训练集,分别作为正负样本;S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征;S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M;S4、用SVM中的RBF函数训练模型训练词向量特征,得到最佳SVM模型;S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C,构建线性打分PC模型;S6、对于查询序列,滑动窗口切分输入的序列,得到一系列片段,计算这些片段的平均保守分数R,将R的极值对应的序列作为候选NLS;S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选,得到M在100到160之间的候选集,再将筛选后的候选集经由基于机器学习的核定位信号预测算法构建的模型得到对应的NLS分数,记作G2;S8、将G2分数超过设定阈值的候选集进行片段拼接,拼接结果即为基于机器学习模型预测的NLS;S9、对于查询序列,将它经由基于频繁模式的核定位信号预测算法构建的模型得到一系列候选NLS及其对应的NLS分数,记作G1,超过富集分数E′S阈值或超过G1阈值的候选NLS即为基于频繁模式模型预测的NLS;S10、由用户选择推荐方式,在对应推荐方式下的候选NLS作为预测的NLS。...

【技术特征摘要】
1.一种基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,包括如下步骤:S1、组建核定位信号训练集与非核定位信号训练集,分别作为正负样本;S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征;S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M;S4、用SVM中的RBF函数训练模型训练词向量特征,得到最佳SVM模型;S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C,构建线性打分PC模型;S6、对于查询序列,滑动窗口切分输入的序列,得到一系列片段,计算这些片段的平均保守分数R,将R的极值对应的序列作为候选NLS;S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选,得到M在100到160之间的候选集,再将筛选后的候选集经由基于机器学习的核定位信号预测算法构建的模型得到对应的NLS分数,记作G2;S8、将G2分数超过设定阈值的候选集进行片段拼接,拼接结果即为基于机器学习模型预测的NLS;S9、对于查询序列,将它经由基于频繁模式的核定位信号预测算法构建的模型得到一系列候选NLS及其对应的NLS分数,记作G1,超过富集分数E′S阈值或超过G1阈值的候选NLS即为基于频繁模式模型预测的NLS;S10、由用户选择推荐方式,在对应推荐方式下的候选NLS作为预测的NLS。2.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,步骤S1中所述组建核定位信号训练集与非核定位信号训练集的方法为从NLSdb2003年版以及2017年版的数据库中选择具有亲本蛋白、有特定形式且被实验验证的145个NLS作为正样本,负样本与正样本长度一一对应且来自同一个序列。3.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,步骤S2中所述的词向量模型为XiaofengFu的“PredictionoftypeIIIsecretedeffectorsbasedonword-embeddingsforproteinsequences”中的词向量模型,数据库是UniRef50,滑动窗口是3。4.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,步骤S5的具体方法如下:S51、分别计算正负样本的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C;S52、将所得的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C加上正负类标签,利用极端随机树分析得到三个特征的权重;S53、根据平均疏水值H越小越好,甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C越大越好的NLS特性,将它们分别线性映射到0.5到1之间的值,得到三个线性函数;H=0.5*(max(H+)-H)/(max(H+)-min(H+))+0.5GB=0.5*(GB-min(GB+))/(max(GB+)-min(GB+))+0.5C=0.5*(C-min(C+))/(max(C+)-min(C+))+0.5其中,H+、GB+和C+分别为正样本的平均每个氨基酸的疏水值H、甘氨酸与碱性氨基酸个数差值的绝对值GB、平均每个氨基酸的等电点C;S54、根据三个线性函数,结合S52中三个特征的权重,进行加权求和,得到最终的线性打分PC模型。5.根据权利要求1所述的基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,步骤S6的具体方法如下:S61、生成PSSM矩阵;首先输入氨基酸序列通过BLAST+软件套装中的psiblast软件在uniref90数据库...

【专利技术属性】
技术研发人员:沈红斌郭芸
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1