用于预测能够分泌至体液中的蛋白质的方法及系统技术方案

技术编号:7152207 阅读:293 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于预测蛋白向体液中的分泌的方法及系统。在实施方式中,一种方法利用包含所收集蛋白的分泌性质的特征集来根据该特征集对分类器进行训练,从而识别与可能分泌至生物流体中的蛋白对应的蛋白特征。另一种方法使用已训练的分类器及所接收蛋白序列的鉴定特征,确定所述蛋白序列分泌至生物流体中的概率。在实施方式中,一种系统预测蛋白向生物流体中的分泌。所述系统包括经配置的组件,其用来构建包含所收集蛋白的性质的蛋白特征集、训练分类器来预测可能分泌至生物流体中的蛋白的特征、接收蛋白序列以及将所接收的蛋白序列鉴定为分泌蛋白。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及对人类蛋白的计算分析,更特别地涉及预测蛋白向体液(例如血液)中的分泌。
技术介绍
基因和蛋白表达的改变提供了关于组织或器官生理状态的重要线索。在恶性转化中,肿瘤细胞中的遗传改变能够破坏自分泌和旁分泌信号传导系统,从而导致可以分泌至癌细胞外部的一些类型的蛋白(例如生长因子、细胞因子和激素)的过表达(Hanahan和 Weinberg, 2000 ;Sporn和Robers,1985)。通过复杂的分泌途径,这些蛋白及其他分泌蛋白可以进入唾液、血液、尿、脑脊髓(脊髓)液、精液、阴道液、眼内液或其他体液。对各种癌症样本的基因组学研究已鉴定出许多持续过表达的基因,而且其中一些基因编码分泌蛋白(Buckhaults等,2001 ;Welsh等,2003 ;Welsh等,2001)。举例而言,在卵巢癌中前列腺蛋白基因和骨桥蛋白基因具有升高的表达水平,而在结肠直肠癌、乳腺癌和前列腺癌中MICl基因发生过表达。与健康个体相比,在具有这些癌症的患者的血清中已检测到这些分泌蛋白的丰度升高(Kim等,2002 ;Mok等,2001 ;Welsh等,2003)。另外已发现一些所述分泌蛋白已显示出与癌症不同发展阶段相关的血清中不同水平的浓度升高,这表示其或许可以用作癌症分型和分期的标记物(Huang等,2006)。就准确预测哪些蛋白可能分泌至体液中而言,还存在困难和挑战。一种困难在于, 必须对大量的蛋白序列和生物流体样品进行分析和分类。对数据进行分类是一项为决定或预测数据项的类别而执行的普通任务。传统的线性分类器对所收集数据项的群体进行检查,其中每个数据项属于两种类别中的一种,并且利用所收集的数据项的性质来“训练”所述分类器,从而决定新的数据项会在哪个类别中。 一种传统的分类器是支持向量机(SVM)。对于SVM,将数据项视作ρ维向量(ρ个数值的列表),并且使用SVM来确定是否能够用P-I维超平面对这些数据项进行分离。对SVM的使用是目前可利用的数据分类技术和回归分析技术。虽然一些研究已着眼于可以分泌至细胞外部的蛋白,但是目前还不存在用来预测能够分泌至特定体液(例如血液或尿)中的蛋白的可利用的方法。将针对胞外分泌蛋白而设计的预测程序用作可预测能够进入体液的蛋白的近似工具来使用,并不能给出可靠的预测。因此,所需的是如下方法和系统允许利用一些蛋白特征对分类器进行训练,从而将能够进入体液的蛋白与不能进入体液的蛋白区分开。此外,为了优化所述分类器的性能以便能够准确预测进入体液的蛋白分泌,需要用来进行特征选择的方法和系统。为了诊断癌症和其他疾病,对于哪些来自在患病组织(例如癌)中高度表达和异常表达的基因的蛋白能够分泌至体液中,必须做出准确的预测。与解决此问题相关的困难在于,目前对在蛋白分泌至细胞外部之后的下游定位的理解非常有限,并且现有的知识不足以提供关于蛋白分泌至体液的有用线索。因此,所需的是用来预测哪些人类蛋白可能会分泌至体液中的数据分类方法。人类血清蛋白质组是非常复杂的混合物,其具有高度丰富的蛋白,例如清蛋白、免疫球蛋白、转铁蛋白、触珠蛋白和脂蛋白,以及由不同组织(患病组织或正常组织)所分泌的或者由人体全身的细胞所泄露的蛋白和肽(Adkins等,2002 Jchrader和 khulZ-Knappe,2001)。在研究人类血清蛋白质组时具挑战性的问题在于,循环中的原生血液蛋白中大多数的丰度比所关心的推定蛋白的丰度高出数个量级。所以,在事先不知道在血液中应寻找何种蛋白或蛋白特征的情况下,在数千或可能更多的原生血液蛋白中以实验手段检测此类分泌蛋白及其在血液中升高的相对丰度是非常困难的。因此,所需的是采用新型计算手段的方法和系统,以便预测在癌症组织中异常高度表达且能够分泌至体液中的蛋白,从而为对体液(例如人类血清)的定向蛋白质组学工作提供目标列表,并能够更加实际地解决对体液中标记物蛋白的鉴定。已经进行了大量的研究来预测在真核生物和原核生物中能够分泌到细胞表面或细胞外环境中的蛋白,并且有若干公共的预测服务器可供使用(Guda,2006 ;Horton等, 2007 ;Menne等,2000 ;Nair和Rost,2005)。多数这些方法的建立是以对蛋白亚细胞定位的一般理解为基础,而多数蛋白的定位是通过分选事件的级联完成的,所述分选事件由小 (信号)肽或能够实现位点特异性摄取、滞留和转运的基序来指导(Doudna和Batey,2004 ; Tjalsma等,2000)。根据诸如氨基酸组成、蛋白质结构域的共现及注释的蛋白功能等信息, 已使用各种统计学习方法开发了这些程序(Guda,2006 ;Mott等,2002)。虽然现有的研究关心蛋白是否分泌到细胞外部,但这些研究对预测蛋白最终会在哪里却并不关心。虽然现有的研究或许已经确定了分泌至体液中的蛋白的表达是否与各种病理状态有关联,但这些研究并未包括用于确定分泌蛋白就其物理和化学性质、氨基酸序列及结构特征而言有何共同之处的方法。传统的方法并不根据蛋白特征来计算蛋白分泌至体液中的概率。然而,由现有的蛋白质组学研究可知,在辅助对病理状态进行的诊断时,这些计算出的概率是有用的。因此,为了辅助对病理状态进行诊断,需要用来计算蛋白在体液中存在的概率的方法及系统。
技术实现思路
本专利技术公开了用来预测分泌至体液中的蛋白的方法、系统及计算机程序产品。由本专利技术的实施方式提供的对蛋白向体液中的分泌的可靠预测将能够实现对病理状态(例如癌症)的更及时的和准确的诊断。在本专利技术的实施方式中,所述体液包括但不限于唾液、血液、尿、脊髓液、精液、阴道液、羊水、龈沟液和眼内液。在一个实施方式中,一种方法预测哪些来自在患病人体组织(例如癌)中高度且异常表达的基因的蛋白能够分泌至体液中,从而提示了用于后续蛋白质组学研究的可能的标记物蛋白。在另一个实施方式中,血分泌蛋白预测(BSPP)服务器实施由计算机执行的方法,该方法用于预测哪些来自在患病人体组织(例如癌)中异常表达的基因的蛋白能够分泌至血液中,从而提示了用于后继血清7蛋白质组学研究的可能的标记物蛋白质。在本专利技术的一个实施方式中,鉴定了一种或多种蛋白序列中的一系列蛋白特征, 其包括但不限于显示与蛋白分泌有相关性的信号肽、跨膜结构域、糖基化位点、无序区、二级结构内容、疏水性(hydrophobicity)和极性量度。使用这些特征,能够训练支持向量机 (Support Vector Machine, SVM)类分类器来预测蛋白向血流中的分泌。为了阐明本专利技术,首先将本专利技术应用于预测蛋白是否会分泌至血液中,随后单独将其应用于预测向尿中的分泌。然而,应了解的是本专利技术具有更广泛的应用,从而开发用于预测蛋白是否会分泌至其他体液(例如但不限于唾液、脊髓液、精液、阴道液和眼内液)中的工具及系统。附图说明图1显示了本专利技术实施方式的流程图,所述流程图阐明了用于对分类器进行训练并预测蛋白向体液中的分泌的示例性过程。图2显示了本专利技术实施方式的R-值(可靠性评分)和P-值(正确分类的概率) 之间的统计学关系,所述R-值和P-值是从对305个阳性蛋白样本和26,962个阴性蛋白样本的分析推导出的。图3阐明了本专利技术实施方式的示例性图形用户界面(GUI),其中能够提供多种蛋白序列来预测哪些蛋白能够本文档来自技高网
...

【技术保护点】
1.一种用于预测蛋白向生物流体中的分泌的方法,所述方法包括:接收一种或多种蛋白序列;对所接收的一种或多种蛋白序列的特征进行鉴定;和使用已训练的分类器和所鉴定的特征,确定所述所接收的一种或多种蛋白序列分泌至所述生物流体中的概率,其中所述已训练的分类器对包含已收集的蛋白的性质的蛋白特征集进行访问,并且其中所述性质与存在于已知分泌至所述生物流体中的蛋白集中的蛋白特征对应。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:崔娟
申请(专利权)人:乔治亚大学研究基金公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1