本发明专利技术提供了一种蛋白质潜在致敏性的预测方法,包括以下步骤:步骤一,制作训练正集和训练负集;步骤二,对蛋白质的各类属性进行编码,构建特征向量;步骤三,引用最大相关最小冗余方法进行特征排序,引用递增式的特征选择方法进行最优特征选择;步骤四,通过对选择出的特征进行统计分析,给出与蛋白质致敏特性显著相关的特征结果报告。本发明专利技术提供的预测方法可以有效地对蛋白质的潜在致敏性进行预测,其准确度比现有的计算生物学预测方法更高,并且能有效分析出同蛋白质的致敏特性相关的蛋白特征,对过敏原预测、蛋白质致敏性机制研究有着重要作用。
【技术实现步骤摘要】
蛋白质潜在致敏性的预测方法
本专利技术涉及一种蛋白质特性的计算生物学预测方法,尤其是涉及一种蛋白质潜在致敏性的预测方法。
技术介绍
由食物和环境因素导致的过敏及其它的超敏反应是慢性病的主要成因,全世界约有25%的人口受此困扰。过敏原包括食物中的蛋白质、冷空气、热空气、紫外线、金属等等,其中具有致敏性的蛋白质对人类的健康可能造成巨大危害。另外,越来越多的转基因食品进入到我们的日常生活中,食物过敏的潜在风险也随之增高。因此,对蛋白质的潜在致敏性进行评估预测是十分必要的。目前,计算生物学的过敏原预测方法主要有三种,一是基于序列的方法,二是基于motif(模体)的方法,三是基于SVM(支持向量机)的方法。FAO/WHO(联合国粮食与农业组织/世界卫生组织)提出的基于序列的预测方法,其原理是根据待测蛋白与已知过敏原蛋白在氨基酸序列上的相似度进行判别,该方法可以有效地预测出过敏原蛋白,但其假阳性率非常高;基于motif的预测方法是比较待测蛋白与过敏原特征motifs,该方法同基于序列的方法相比,一定程度上提高了特异性,减少了假阳性率,但总体准确率却只有65%左右,还远达不到实际需求;基于SVM的机器学习方法先建立一个已知过敏原和非过敏原数据集,然后计算它们的氨基酸组成,这些氨基酸组成作为特征输入SVM进行训练,最终形成一个训练模型(分类器),根据待测蛋白的氨基酸组成,分类器进行判断输出结果,该方法大大提高了准确率,但无法得知过敏原特征信息。
技术实现思路
本专利技术的目的在于克服现有预测方法的不足,提供一种用于蛋白质潜在致敏性的预测方法,本专利技术提供的方法具有高灵敏度、高特异性的优点,并且提供与蛋白质致敏特性显著相关的特征。本专利技术通过如下技术方案实现,本专利技术涉及一种蛋白质潜在致敏性的预测方法,包括以下步骤:步骤一,制作训练正集和训练负集;步骤二,对蛋白质的各类属性进行编码,构建用于输入SVM的特征向量;步骤三,引用最大相关最小冗余方法(mRMR)进行特征排序,引用递增式的特征选择方法(IFS)进行最优特征选择;步骤四,通过对选择出的特征进行统计分析,给出与蛋白质致敏特性显著相关的特征结果报告。优选的,所述正集包括所有已知的过敏原蛋白序列;所述负集制备随机抽取Swiss-Prot蛋白质序列数据库中的蛋白质序列,移除所有同已知过敏原相似度≥30%的序列和长度小于50个氨基酸的序列。优选的,步骤二中,所述属性的编码包括以下步骤:将二级结构倾向性、疏水性、极化性、可溶性、标准化的范德华体积和极性,按照序列位置中每个氨基酸的分类对蛋白序列进行重新编码。优选的,步骤二中,所述构建特征向量包括如下步骤:整合蛋白质的属性;每类属性分别计算其特征向量;然后整合成一个156维的表示蛋白质的特征向量。优选的,步骤三中,所述递增式的特征选择方法包括如下步骤:首次选用排序最靠前的1个特征进行建模,计算其10-折叠交叉验证的性能参数,然后选用排序最靠前的2个特征进行建模,计算其10-折叠交叉验证的性能参数,以此类推,每次增加一个排序在最前面的特征,直至所有特征添加完毕。与现有技术相比,本专利技术具有如下有益效果:使用本专利技术的蛋白质潜在致敏性预测方法,可以准确判断出过敏原蛋白,灵敏度和特异性都较之前的方法有了大幅提高。本专利技术首次结合了蛋白质的各类特征进行训练、建模,可以有效分析出与蛋白质致敏特性相关的蛋白特征。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例的流程示意图;图2为本专利技术实施例中逐一递增特征的特征选择下,各训练模型的10折叠交叉验证的性能输出图;图3为本专利技术实施例中与致敏特性相关的特征分析和统计结果图,其中SL:亚细胞定位,AAC:氨基酸组成,Pola:极性,Hydr:疏水性,Len:序列长度,NWV:标准化的范德华体积,MW:分子量,Polz:极化性;图4为本专利技术实施例中过敏原蛋白亚细胞定位分布图;图5为本专利技术实施例中过敏原类别间保守性示意图;图6为本专利技术实施例提供的预测方法不同过敏原类别间的性能比较图;图7为本专利技术实施例提供的预测方法与现有预测方法的性能比较图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。实施例1、预测方法的数据集制备过敏原蛋白数据集制备:数据来源数据库包括Swiss-ProtAllergenIndex(一个权威蛋白质数据库);IUISAllergenNomenclature(国际免疫学会联盟-过敏原命名表);SDAP(过敏蛋白的结构数据库)和ADFS(用于食品安全的过敏原数据库),去冗余后共得到1176条过敏原蛋白序列,这些序列作为训练模型时的正集;非过敏原蛋白数据集制备:为构建一个可行的负集,采用如下步骤实现:1.下载Swiss-Prot(版本:2010_11)的所有蛋白序列共522,019条;2.移除所有同已知过敏原相似度>=30%的序列;3.移除所有长度小于50个氨基酸的序列;4.从3的结果中随机选取同正集相同数目的蛋白序列作为负集。实施例2、输入SVM的特征向量构建物理化学特征:本实施例中采集的蛋白质的物理化学特征包括八个方面,1.氨基酸组成;2.分子量;3.二级结构倾向性;4.疏水性;5.极化性;6.可溶性;7.标准化的范德华体积;8.极性;9.序列长度。氨基酸组成的计算公式为除氨基酸组成、分子量与序列长度外,其它六方面的属性与单个氨基酸相关且可分为2到3个类别(如表1所示),采用类似的编码方式先重新编码,然后计算特征向量组成;表1蛋白特征分类表以一个蛋白序列的疏水性为例说明其特征向量组件的计算方法,序列为“MSDKPDMAEIEKFSKETIEQEKQAGESTQEKNPLPMLLPATDKSKLKKTE”,因为疏水性分为P(polar),N(neutral)和H(hydrophobic),所以,序列重新编码为“HNPPNPHNPHPPHNPPNHPPPPPNNPNNPPPPNHNHHHNNNPPNPHPPNP”。接下来计算编码后序列的C(composition),T(transition)和D(distribution)。C指的是P、N、H在序列中的含量百分比,T指的是字母间转换的频率百分比,D指的是每个字母在全序列中的分布模式,即第25%,50%,75%,和100%个该字母在全序列中的位置(仍以百分比表示)。按此方法,例中序列计算后C=(10/50=20.0%,16/50=32%,24/50=48%),T=(8/31=25.81%,16/31=51.61%and7/31=22.58%),D=(2%,20%,36%,74%,92%,4%,28%,54%,78%,98%,6%,24%,44%,64%,and100%),其它5方面属性的特征向量组件可同理计算得到;亚细胞定位:由于对真核生物蛋白来说,共有22个亚细胞位置,所以亚细胞定位属性由一个22维向量表示L=(l1,l2,l3,…,l22),其中li=1表示蛋白位于本文档来自技高网...

【技术保护点】
一种蛋白质潜在致敏性的预测方法,其特征在于,包括以下步骤:步骤一,制作训练正集和训练负集;步骤二,对蛋白质的各类属性进行编码,构建特征向量;步骤三,引用最大相关最小冗余方法进行特征排序,引用递增式的特征选择方法进行最优特征选择;步骤四,通过对选择出的特征进行统计分析,给出与蛋白质致敏特性显著相关的特征结果报告。
【技术特征摘要】
1.一种蛋白质潜在致敏性的预测方法,其特征在于,包括以下步骤:步骤一,制作训练正集和训练负集;步骤二,对蛋白质的各类属性进行编码,构建特征向量;步骤三,引用最大相关最小冗余方法进行特征排序,引用递增式的特征选择方法进行最优特征选择;步骤四,通过对选择出的特征进行统计分析,给出与蛋白质致敏特性显著相关的特征结果报告;步骤二中,所述属性的编码包括以下步骤:将二级结构倾向性、疏水性、极化性、可溶性、标准化的范德华体积和极性,按照序列位置中每个氨基酸的分类对蛋白序列进行重新编码,所述分类见下表:所述构建特征向量包括如下步骤:整合蛋白质的属性;每类属性分别计算其特征向量;然后整合成一个156维的表示蛋白质的特征向量;其中,所述特征向量所示的蛋白质的氨基酸组成计算公式为:蛋白质二级结构倾向性、疏水性、极化性、可溶性、标准化的范德华体积和极性的特征向量元件的计算,则根据所述重新编码后的序列完成,对每种属性,计算其重新编码序列的C,T和D;以一...
【专利技术属性】
技术研发人员:李婧,王婧,张大兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。