一种用最近邻检索实现的蛋白质亚细胞定位预测方法技术

技术编号：12298674 阅读：159 留言：0更新日期：2015-11-11 09:38

一种用最近邻检索实现的蛋白质亚细胞定位预测方法，该方法包括以下步骤：（1）、以AAC特征向量作为蛋白序列的特征，用LSH方法将训练集中的各蛋白序列的AAC特征向量存放在多个哈希表中；（2）、预测时，用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值，得到相似序列向量的集合；（3）、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最近的Q个向量，用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量间蛋白序列期望距离，将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预测区间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物信息学领域，尤其是一种使用机器学习技术实现的蛋白质亚细胞定位预测方法，具体地说是。
技术介绍
蛋白质亚细胞定位是指某种蛋白或某种基因表达产物在细胞内的具体存在部位，即根据所给出的蛋白质序列来预测其所在的亚细胞位置。蛋白质的亚细胞定位与其生物学功能密切相关。蛋白细胞的知识位置在生物学，细胞生物学，药理学，医学中起着至关重要的作用。虽然蛋白质的亚细胞定位可通过实验确定，但是耗时和昂贵。随着测序的基因组数据的增加，用于预测蛋白质的亚细胞定位方法变得越来越重要，需要自动化和准确的工具。近年出现了一些有效的定位预测方法，从单独分类器到集成机器学习研究，常见的单独分类器算法包括：支持向量机，神经网络，隐马尔可夫模型，贝叶斯方法，K-最近邻等.集成学习将多个弱分类器结合起来，构建一个强的集成分类器，可使得模型性能获得提高。单分类器和集成分类器被人们不断尝试运用在亚细胞预测定位中，准确率已经很难提高，且这些方法大部分都依赖比较复杂的模型训练过程，除非专利技术新的方法或者特征，否则准确率很难再得到提高。
技术实现思路
本专利技术的目的是针对蛋白质亚细胞定位的问题，提出一种用最近邻检索实现的蛋白质亚细胞定位预测方法。该方法以简单的AAC向量作为蛋白序列的特征，用LSH算法将训练集序列特征向量存放在多个哈希表中。预测时，用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值，得到相似序列向量的集合。再从得到的相似集，选取离目标向量欧氏距离最近的Q个向量。用全局比对动态规划法计算向量间蛋白序列期望距离...
一种用最近邻检索实现的蛋白质亚细胞定位预测方法

【技术保护点】
一种用最近邻检索实现的蛋白质亚细胞定位预测方法，其特征是：该方法包括以下步骤：(1)、以AAC特征向量作为蛋白序列的特征，用LSH方法将训练集中的各蛋白序列的AAC特征向量存放在多个哈希表中；(2)、预测时，用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值，得到相似序列向量的集合；(3)、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最近的Q个向量，用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量间蛋白序列期望距离，将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预测区间。

【技术特征摘要】

【专利技术属性】
技术研发人员：薛卫，王雄飞，赵南，任守纲，
申请(专利权)人：南京农业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人