一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用技术

技术编号:28425042 阅读:39 留言:0更新日期:2021-05-11 18:33
本发明专利技术属于生物技术领域,公开了一种以半胰蛋白酶多肽为中心的宏蛋白质组数据挖掘方法,包括两步搜库、从头测序、开放式检索和多种搜库软件匹配,针对高分辨率质谱数据进行大规模的以半胰蛋白酶肽为中心的宏蛋白质组信息挖掘。这些策略可以减少因数据库不完整和翻译后修饰而产生的假阳性率。使用本发明专利技术的方法在分析大肠杆菌蛋白质组时,从一个巨大的宏蛋白数据库中鉴定出的肽段有93.4%与传统大肠杆菌参考数据库鉴定出的肽段相一致。

【技术实现步骤摘要】
一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用
本专利技术涉及生物信息分析
,更具体的,涉及一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用。
技术介绍
肠道微生物生活在一个动态的环境中,面临着来自药物、饮食、微生物竞争和宿主内源化学成分的蛋白毒性和代谢压力。细菌已经进化出不同的调节策略以适应不断变化的环境,包括基因表达的改变、细胞分化和运动的变化,在这些调节策略中,蛋白水解起到了至关重要的作用,蛋白水解调控是影响所有生物的重要过程,细菌使用能量依赖的蛋白酶来降解错误折叠的蛋白,或者激活调节蛋白来对动态的肠道环境做出快速反应。微生物通过蛋白水解进行调节的功能非常广泛,例如应激反应、细胞生长分裂、生物膜形成、蛋白质的分泌。炎症性肠病(IBD)是一种受遗传和环境因素影响的慢性炎症性疾病,主要包括克罗恩病(CD)和溃疡性结肠炎(UC)。已有报道证实IBD与肠道微生物失调有关。在IBD肠道微生物组研究中,宏基因组学和16SrRNA基因测序占绝大多数。然而,需要宏转录组学或宏蛋白质组学通过分别直接测量RNA和蛋白质来精确定位功能和代谢活动。此外,在蛋白质水平上还有重要的调节模式,例如蛋白质水解调控,这些调节模式无法通过RNA研究获得,但可以使用宏蛋白质组学进行研究。然而,在IBD等复杂疾病状态下,肠道微生物蛋白质水解的特征变化尚未被研究,因此亟需一种能够在复杂疾病状态下掌握肠道微生物蛋白质水解特征的方法。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术存在的上述问题,首先提供一种以半胰蛋白酶多肽为中心的宏蛋白质组挖掘方法,也提供一种比较蛋白质水解程度的方法。本专利技术的第二个目的是提供上述方法在获取肠道微生物蛋白水解特征中的应用。本专利技术的目的通过以下技术方案实现:一种确定蛋白质水解程度的方法,包括以下步骤:S1、获取样品的(宏)蛋白质组数据或公共数据库中发表的(宏)蛋白质组数据;S2、利用大的宏蛋白数据库以及PEAKSDB软件执行第一次搜索,得到至少一个肽被鉴定出来的蛋白质;S3、利用PEAKSDB软件、MaxQuant软件和pFind软件将组学数据与S2得到的蛋白质序列进行搜库鉴定,保留同时被PEAKSDB、MaxQuant和pFind三种软件同时鉴定的肽;S4、区分出S3得到的肽中半胰蛋白酶多肽(Semi-trypticpeptide)和完全胰蛋白酶多肽(fulltrypticpeptide);S5、以半胰蛋白酶多肽归一化后的相对丰度来确定蛋白质水解程度,其中,半胰蛋白酶多肽归一化的相对丰度是通过将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度得到。优选地,S4中,半胰蛋白酶多肽的鉴定原则是:在鉴定序列前一位氨基酸不是R或K的肽为半胰蛋白酶N端肽(不包含蛋白质的N端)。鉴定序列的最后一个氨基酸缺少R或K,则是半胰蛋白酶C端肽(不包含蛋白质的C端)。蛋白质组学样品制备过程中蛋白质被胰蛋白酶水解后产生的肽段的前面一位氨基酸应该是K或R,而最后一位氨基酸也应该为K或R。如果数据中检测到了半胰蛋白酶,说明有胰蛋白酶以外的其他蛋白酶参与了蛋白质的水解,导致了肽段前面一位氨基酸或最后一位氨基酸不是K或R,因此半胰蛋白酶可作为蛋白质在生物体内被其他蛋白酶水解的标志,而完全胰蛋白酶可以作为蛋白质在生物体内未被其他蛋白酶水解的标志。但是研究蛋白质水解程度不能仅仅依赖于半胰蛋白酶,因为半胰蛋白酶丰度的改变可能仅仅是由于对应的蛋白质总量的改变(合成增加或减少),而蛋白质水解的程度并没有改变。因此需要将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度来比较不同样本间蛋白质水解的程度的变化,这样可以排除蛋白质总量变化这一因素。优选地,PEAKSDB数据库执行搜索的参数为:母离子(precursorion)的质量偏差为10ppm,碎片离子(production)的质量偏差为0.02Da;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰为3个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;酶为胰蛋白酶,酶切方式为半特异性(semi-specific),未被酶切位点最多为3个;假阳性率(falsediscoveryrate)设为1%。优选地,MaxQuant执行搜索的参数为:初次搜索(firstsearch)质量偏差为20ppm,主要搜索(mainsearch)质量偏差为4.5ppm;酶为胰蛋白酶,酶切方式为半特异性(semi-specific),未被酶切位点最多为2个;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰数为5个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;假阳性率(falsediscoveryrate,FDR)设为1%,保留后验错误概率(posteriorerrorprobability,PEP)小于5%的肽段用于后续分析。优选地,pFind执行搜索的参数为:pFind执行搜索的参数为:母离子的质量偏差为10ppm,碎片离子的质量偏差为20ppm,搜库模式为开放式搜库(open-search),酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为3个;FDR设为1%。本专利技术还提供上述方法的应用。具体地,上述方法用于捕获肠道微生物蛋白质水解的特征。提供了菌群结构和蛋白质丰度之外的不同层次的信息,这项分析是基于这样的假设,即相似的蛋白水解程度应该导致相似的半胰蛋白酶多肽的相对丰度,本专利技术研究发现447个粪便宏蛋白质组中的微生物半胰蛋白酶多肽在脂肪酸、羧酸、葡萄糖和盐藻糖的代谢过程、支链氨基酸的生物合成过程、蛋白质运输和细菌型鞭毛介导的细胞运动等几个生物学过程中得到了丰富,这表明它们经历了更广泛的蛋白质水解调节。或者,上述方法用于研究肠道微生物区系和宿主-微生物相互作用。本专利技术上述蛋白质组的挖掘方法也适用于捕获植物和环境微生物的蛋白质水解特征,因此,上述方法可用于探索植物和环境微生物的蛋白质水解规律。本专利技术上述方法还可以用于研究与细菌蛋白酶有关的疾病(例如细菌感染、炎症性肠病),通过该方法可以研究细菌蛋白水解程度的变化,从而以相应的细菌蛋白酶为靶标,针对性的开发相应的药物进行调控。与现有技术相比,本专利技术具有以下有益效果:本专利技术提供了一种以半胰蛋白酶多肽为中心的宏蛋白质组挖掘方法,包括两步搜索、从头测序、开放搜索和多种软件结果匹配,以进行大规模的半胰蛋白酶肽为中心的宏蛋白质组挖掘。这些策略可以减少因数据库不完整和多肽修饰而产生的假阳性识别。以往的研究对低分辨率MS/MS生成的宏蛋白质组学数据集进行了半胰蛋白酶多肽搜索,不可避免地增加了搜索空间,降低了鉴定结果的置信度。在他们的研究中,在一个包含6162,582条序列的宏蛋白大数据库中,当搜索Pyrococcusfuriosus蛋白质组时,本文档来自技高网...

【技术保护点】
1.一种确定蛋白质水解程度的方法,其特征在于,包括以下步骤:/nS1、获取样品的(宏)蛋白质组数据或公共数据库中发表的(宏)蛋白质组数据;/nS2、利用大的宏蛋白数据库以及PEAKSDB软件执行第一次搜索,得到至少一个肽被鉴定出来的蛋白质;/nS3、利用PEAKSDB软件、MaxQuant软件和pFind软件将组学数据与S2得到的蛋白质序列进行搜库鉴定,保留同时被PEAKSDB、MaxQuant和pFind三种软件同时鉴定的肽;/nS4、区分出S3得到的肽中半胰蛋白酶多肽和完全胰蛋白酶多肽;/nS5、以半胰蛋白酶多肽归一化后的相对丰度来确定蛋白质水解程度,其中,半胰蛋白酶多肽归一化的相对丰度是通过将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度得到。/n

【技术特征摘要】
1.一种确定蛋白质水解程度的方法,其特征在于,包括以下步骤:
S1、获取样品的(宏)蛋白质组数据或公共数据库中发表的(宏)蛋白质组数据;
S2、利用大的宏蛋白数据库以及PEAKSDB软件执行第一次搜索,得到至少一个肽被鉴定出来的蛋白质;
S3、利用PEAKSDB软件、MaxQuant软件和pFind软件将组学数据与S2得到的蛋白质序列进行搜库鉴定,保留同时被PEAKSDB、MaxQuant和pFind三种软件同时鉴定的肽;
S4、区分出S3得到的肽中半胰蛋白酶多肽和完全胰蛋白酶多肽;
S5、以半胰蛋白酶多肽归一化后的相对丰度来确定蛋白质水解程度,其中,半胰蛋白酶多肽归一化的相对丰度是通过将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度得到。


2.根据权利要求1所述的确定蛋白质水解程度的方法,其特征在于,S4中,半胰蛋白酶多肽的鉴定原则是:鉴定的肽段若前一位氨基酸不是R或K(不包括蛋白质N端肽段)则是半胰蛋白酶N末端肽,鉴定的肽段若最后一位氨基酸不是R或K(不包括蛋白质C端肽段)则是半胰蛋白酶C末端肽。


3.根据权利要求1所述的确定蛋白质水解程度的方法,其特征在于,PEAKSDB数据库执行搜索的参数为:母离子的质量偏差为10ppm,碎片离子的质量偏差为0.02Da;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰为3个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷...

【专利技术属性】
技术研发人员:严志祥单鸿贺飞翔张婷薛可文
申请(专利权)人:中山大学附属第五医院南方海洋科学与工程广东省实验室珠海
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1