当前位置: 首页 > 专利查询>广州大学专利>正文

一种预测蛋白质序列的方法、系统、装置及介质制造方法及图纸

技术编号:25759403 阅读:35 留言:0更新日期:2020-09-25 21:07
本发明专利技术公开了一种预测蛋白质序列的方法,包括以下步骤:获取原始数据,构建原始数据集;对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;对提取的特征值进行降维处理,生成特征值的降维序列;根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示;选择氨基酸的组成值、转换值以及分布值作为特征值,使预测结果具有针对性,同时使得预测结果更为准确;并通过降维方法将提取出来的冗余的蛋白质序列样本的特征进行筛选,提升了蛋白质序列区分的效率;最后直观清晰地展示预测结果。本发明专利技术可广泛应用于大数据或机器学习技术领域。

【技术实现步骤摘要】
一种预测蛋白质序列的方法、系统、装置及介质
本专利技术涉及大数据、机器学习
,尤其是一种预测蛋白质方法、系统、装置及介质。
技术介绍
目前,国内外对蛋白质功能的检测主要是通过两个方面来实现,一是实验的方法,二是利用计算机建模。早期蛋白质功能的预测都是通过实验的方法来完成的,常用的试验方法有X射线晶体衍射分析、酵母杂交法、质谱法、核磁共振法、梵光共振能量转移技术和蛋白质芯片技术等。通过实验的方法能够准确的测定蛋白质的功能,但耗时长且实验的成本高,需要迫切地开发出新的计算方法,来快速准确得识别蛋白质序列得功能。此外,早期对蛋白质序列得研究常用的方法是通过对比现有已知功能的序列和新的序列来预测其功能,也就是基于同源蛋白的功能对目标蛋白进行功能注释。1986年,Nakashima等人等率先提出了以20种氨基酸在一条序列中出现的概率为特征来数字化描述蛋白质序列,这种方法在膜蛋白预测问题中得到了广泛的应用,且取得了较好的预测结果。Chou提出了伪氨基酸组成的方法,将氨基酸物理化学性质的n阶相关因子加入特征;Cai等利用氨基酸的几大特性将氨基酸分组,并利用其组成、转换和分布信息构造了188维的特征来表示蛋白质序列。至于分类器的选择,在生物信息学领域常见的机器学习算法包括随机森林、决策树、支持向量机、朴素贝叶斯和神经网络;Ding利用了g-gap残基组成构建了400维的特征,使用SVM的分类效果达到85.02%;Fu等提出了一种基于有向混合图重启动游走的方法来预测蛋白质的功能,在酵母菌和人类蛋白质上均取得了较好的实验效果。综上所述,现有技术对于蛋白质序列的预测,不仅方法预测结果的精确度不高;而且预测蛋白质序列方法冗余复杂,效率低下。
技术实现思路
有鉴于此,为至少部分解决上述技术问题之一,本专利技术实施例目的在于提供一种预测蛋白质序列的方法,以及可以对应实现蛋白质序列预测方法的系统、装置以及存储介质。第一方面,本专利技术的提供了一种预测蛋白质序列的方法,包括以下步骤:获取原始数据,构建原始数据集;对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;对提取的特征值进行降维处理,生成特征值的降维序列;根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。此外,在本专利技术的一些实施例中,获取原始数据,构建原始数据集这一步骤,其具体包括:从蛋白质家族数据库中获取蛋白质序列,构建正样本数据集;对正样本数据集进行数据清洗,将序列编号相同的蛋白质序列进行整合;从蛋白质家族数据库中剔除完成数据清洗和整合后的正样本数据集,得到负样本数据集。在本专利技术的一些实施例中,对原始数据集中的蛋白质序列进行特征提取这一步骤,其具体包括:根据蛋白质序列中氨基酸的数目或者氨基酸的长度得到组成值;和/或,根据蛋白质序列中氨基酸组合的数目以及蛋白质序列的长度得到转换值;和/或,根据蛋白质序列中氨基酸的位置以及蛋白质序列的长度得到分布值。在本专利技术的一些实施例中,对提取的特征值进行降维处理,生成特征值的降维序列这一步骤,其具体包括:根据提取的特征值生成特征序列;根据特征序列生成链表,根据链表生成有向图,计算有向图中要素的得分;根据有向图中要素的得分对特征序列进行排序。在本专利技术的一些实施例中,根据提取的特征值生成特征序列这一步骤,其包括以下步骤之一:通过方差分析检验特征值差异的显著性,根据显著性生成特征序列;根据特征值的最大相关性和最大距离生成特征序列;根据特征值的线性或非线性强度生成特征序列;根据正则化线性回归生成特征序列;根据特征值的最大差异生成特征序列;根据卡方分布的假设检验生成特征序列;根据相关系数的大小或特征属性的重要性特征序列。在本专利技术的一些实施例中,根据有向图中要素的得分对特征序列进行排序这一步骤,其具体为:根据数据指标得到具有最高索引和最高分数的降维序列,其中,数据指标包括精确度、准确度、召回率、马修斯相关系数以及接受者操作特性曲线与坐标轴围成的面积。在本专利技术的一些实施例中,根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示这一步骤,其具体为:从蛋白质序列中选取至少两个特征值,根据特征值绘制G蛋白偶联受体和非G蛋白偶联受体的区分图。第二方面,本专利技术的技术方案还提供一种预测蛋白质序列的系统,包括:数据获取单元,用于获取原始数据,构建原始数据集;特征提取单元,用于对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;降维处理单元,用于对提取的特征值进行降维处理,生成特征值的降维序列;结果可视化单元,用于根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。第三方面,本专利技术的技术方案还提供一种预测蛋白质序列的装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器实现一种预测蛋白质序列的方法。第四方面,本专利技术的技术方案还提供了一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现一种预测蛋白质序列的方法。本专利技术的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本专利技术的具体实施方式了解得到:本专利技术技术方案通过构建蛋白质序列的数据集,并进行特征提取,选择氨基酸的组成值、转换值以及分布值作为特征值,使预测结果具有针对性,同时使得预测结果更为准确;并通过降维方法将提取出来的冗余的蛋白质序列样本的特征进行筛选,提取出更具有区分度的特征,进行降维处理,提升了蛋白质序列区分的效率;最后将预测得到的结果进行可视化展示;更为直观清晰地展示预测结果。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1本专利技术实施例一种预测蛋白质序列的方法步骤流程图;图2为本专利技术实施例中一种蛋白质序列的计算方法示意图;图3为本专利技术实施例中生成特征值的降维序列具体步骤流程图;图4为本专利技术实施例中根据链接列表生成的有向图;图5为本专利技术实施例一个结果预测散点图;图6为本专利技术实施例另一个结果预测散点图;图7为通过188D特征提取方法所得到的一个结果预测散点图;图8为通过188D特征提取方法所得到的另一个结果预测散点图;图9为未进行降维处理得到的结果预测散点图;图10为进行降维处理得到的结果预测散点图。具体实施方式...

【技术保护点】
1.一种预测蛋白质序列的方法,其特征在于,包括以下步骤:/n获取原始数据,构建原始数据集;/n对所述原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;/n对提取的特征值进行降维处理,生成所述特征值的降维序列;/n根据所述特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。/n

【技术特征摘要】
1.一种预测蛋白质序列的方法,其特征在于,包括以下步骤:
获取原始数据,构建原始数据集;
对所述原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;
对提取的特征值进行降维处理,生成所述特征值的降维序列;
根据所述特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。


2.根据权利要求1所述的一种预测蛋白质序列的方法,其特征在于,所述获取原始数据,构建原始数据集这一步骤,其具体包括:
从蛋白质家族数据库中获取蛋白质序列,构建正样本数据集;
对所述正样本数据集进行数据清洗,将序列编号相同的蛋白质序列进行整合;
从所述蛋白质家族数据库中剔除完成数据清洗和整合后的正样本数据集,得到负样本数据集。


3.根据权利要求1所述的一种预测蛋白质序列的方法,其特征在于,所述对所述原始数据集中的蛋白质序列进行特征提取这一步骤,其具体包括:
根据所述蛋白质序列中氨基酸的数目或者氨基酸的长度得到所述组成值;
和/或,根据所述蛋白质序列中氨基酸组合的数目以及所述蛋白质序列的长度得到所述转换值;
和/或,根据所述蛋白质序列中氨基酸的位置以及所述蛋白质序列的长度得到所述分布值。


4.根据权利要求1所述的一种预测蛋白质序列的方法,其特征在于,所述对提取的特征值进行降维处理,生成所述特征值的降维序列这一步骤,其具体包括:
根据提取的特征值生成特征序列;
根据所述特征序列生成链表,根据所述链表生成有向图,计算所述有向图中要素的得分;
根据所述有向图中要素的得分对所述特征序列进行排序。


5.根据权利要求4所述的一种预测蛋白质序列的方法,其特征在于,所述根据提取的特征值生成特征序列这一步骤,其包括以下步骤之一:
通过方差分析检验所述特征值差异的显著性,根据所述显著性生成所述特征序列;
根据所述特征值的最大相关性和最大距离生成所述特征序...

【专利技术属性】
技术研发人员:陈智华古星月邵泽辉寇铮刘文斌方刚石晓龙
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1