System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种混合蛋白质高效鉴定方法及系统技术方案_技高网

一种混合蛋白质高效鉴定方法及系统技术方案

技术编号:40899941 阅读:3 留言:0更新日期:2024-04-18 11:17
本发明专利技术公开了一种混合蛋白质高效鉴定方法,包括:通过双向循环神经网络算法,构建包含蛋白质肽段和对应质谱信息的谱图数据库;并通过多次迭代搜索优化肽段鉴定结果;通过MaxDIA的蛋白分析算法,进行质谱的分析;通过多维蛋白质过滤算法,经过四种不同标准的过滤,得到具有高置信水平的蛋白质搜库结果。本发明专利技术显著提高了蛋白质鉴定的速度和准确性,简化了数据分析过程,增强了蛋白质定量的精度。

【技术实现步骤摘要】

本专利技术涉及生物信息,尤其涉及一种混合蛋白质高效鉴定方法及系统


技术介绍

1、近年来,蛋白质鉴定在生物学、药物研发、临床诊断和其他领域具有广泛的应用。通常,蛋白质鉴定是分析生物样品中存在哪些蛋白质、它们的结构和功能等关键信息的过程。传统的蛋白质鉴定方法主要依赖于抗体、酶联免疫吸附试验(elisa)和蛋白质纯化等技术,但这些方法受到了许多限制,包括特异性、检测范围和复杂性等方面的限制。此外,生物体内的蛋白质种类众多,且在不同条件下表达水平变化,这增加了传统鉴定方法的挑战。

2、近年来,质谱技术的发展为蛋白质鉴定提供了新的机会。质谱技术能够将蛋白质降解成肽段,并通过分析这些肽段的质谱图谱来确定蛋白质的存在。然而,现有的质谱鉴定方法仍然存在一些问题,如鉴定速度、数据分析的复杂性和准确性等。

3、鉴定蛋白质的复杂性主要在于蛋白质的多样性和修饰,以及大规模质谱数据的处理。此外,定量蛋白质鉴定在疾病诊断、药物筛选和基础生物学研究中具有重要作用,但仍需要更高效的方法。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有存在的问题,提出了本专利技术。

3、因此,本专利技术提供了一种混合蛋白质高效鉴定方法及系统解决现有蛋白质鉴定方法存在速度较慢和准确性较低的问题。

4、为解决上述技术问题,本专利技术提供如下技术方案:

5、第一方面,本专利技术提供了一种混合蛋白质高效鉴定方法方法,包括:

6、通过双向循环神经网络算法,构建包含蛋白质肽段和对应质谱信息的谱图数据库;并通过多次迭代搜索优化肽段鉴定结果;

7、通过maxdia的蛋白分析算法,进行质谱的分析;

8、通过多维蛋白质过滤算法,经过四种不同标准的过滤,得到具有高置信水平的蛋白质搜库结果。

9、作为本专利技术所述的混合蛋白质高效鉴定方法的一种优选方案,其中:

10、所述通过双向循环神经网络的算法和结构,得到包含蛋白质肽段和对应质谱信息的谱图数据库,包括以下步骤:

11、进行编码,编码器包括三层双向长短期神经网络,以肽段的氨基酸序列及其质谱数据作为输入,输出则是每个片段离子的强度;

12、进行解码,解码器是由relu激活函数构成的多层感知机,通过全连接层对输入的氨基酸表示及质谱数据进行处理,并在每个氨基酸输入的位置输出不断片段离子类型的强度信息,然后根据每个离子的强度信息对肽段谱图进行构建。

13、作为本专利技术所述的混合蛋白质高效鉴定方法的一种优选方案,其中:

14、所述通过maxdia的蛋白分析算法,包括以下步骤:

15、蛋白质定性鉴定:对dia质谱数据进行预处理,从预处理后的质谱数据中提取特征,使用蛋白质数据库和谱库匹配算法,将特征与已知蛋白质的质谱图进行比对和匹配,采用bootstrap方法对已鉴定的蛋白质进行统计验证和可靠性评估;

16、估计蛋白质的相对表达水平:将各个样本的强度值相加,而不进行标准化,然后将标准化因子作为自由变量,通过一个全局优化过程来确定标准化因子,使得整个蛋白质组的定量误差最小化。

17、作为本专利技术所述的混合蛋白质高效鉴定方法的一种优选方案,其中:

18、所述估计蛋白质的相对表达水平,包括使用归一化系数nj与第j次质谱分析中所有的肽离子信号强度相乘来矫正不同次质谱分析间的强度变化,将样本a的肽段离子p的总强度定义为:

19、

20、其中,k表示样本a中肽段离子p的所有同位素峰,xic则表示强度最大时的横截面积。

21、作为本专利技术所述的混合蛋白质高效鉴定方法的一种优选方案,其中:

22、所述估计蛋白质的相对表达水平,还包括考虑对肽段信息的选择,使用肽离子信号的相对表达量对蛋白质的相对表达量进行计算,具体来说,对于蛋白质pro,通过肽段匹配鉴定到其中的肽段p={p1,p2,…pm},且其在样本s={a,b,c…z}上的xic的分布强度为xicam,对肽段进行寻找,用来计算蛋白质pro在样本a和b上丰度比率的肽段需要在样本a和样本b上同时检测到肽段信号,符合条件的肽段序号的集合需要以下满足条件:

23、c={α1,α2,...αn}

24、

25、

26、其中,集合c中的αn表示肽段序号,xicaαi表示肽段pαi在样本a上的xic表达量,集合c中的序号对应的肽段满足“在样本a和b上同时存在可鉴别的肽段信号”条件;

27、取符合条件的肽段xic表达量的中位数的比率作为蛋白质丰度的比率,蛋白质丰度的比率计算方式表示为:

28、

29、其中,rab表示蛋白质在样本a和样本b上的丰度之比,media(xic)表示对集合中的元素求取中位数。

30、作为本专利技术所述的混合蛋白质高效鉴定方法的一种优选方案,其中:

31、所述经过四种不同标准的过滤,包括:

32、基于污染物的蛋白过滤,角蛋白是一种表皮结构蛋白,存在于皮肤、头发、指甲的外层,最终会同样本一起进入质谱仪中从而影响到蛋白鉴定的结果;

33、基于诱饵库的蛋白过滤,诱饵蛋白是在目标-诱饵库搜索策略下产生的非目标蛋白;

34、基于缺失值的蛋白过滤,阈值设置为30%;

35、基于唯一肽段的蛋白过滤,蛋白质是由肽段通过不同的排列组合得到的,同一条肽段会出现在不同的蛋白质中,而蛋白质搜库时会优先得到肽段,再根据肽段对拥有该肽段的蛋白质进行匹配。

36、作为本专利技术所述的混合蛋白质高效鉴定方法的一种优选方案,其中:

37、所述多维蛋白质过滤算法,还包括对输入的蛋白质集合进行筛选,包括以下步骤:

38、初始化exp_p′为exp_p;exp_p′是经过筛选后的蛋白质集合;

39、遍历exp_p′中的每一个蛋白质p;

40、如果p属于污染物集合con_p,从exp_p′中删除p;

41、如果p属于decoy proteins集合de_p,从exp_p′中删除p;

42、如果p在exp_p′中存在并且缺失概率mp大于一个预设的阈值,从exp_p′中删除p;

43、如果p在exp_p中存在并且与集合中其他蛋白质的相似度大于一个预设的阈值,从exp_p′中删除p;

44、最后返回exp_p′,即经过筛选后的蛋白质集合。

45、第二方面,本专利技术提供了一种混合蛋白质高效鉴定系统,包括:

46、构建模块,通过双向循环神经网络算法,构建包含蛋白质肽段和对应质谱信息的谱图数据库;并通过多次迭代搜索优化肽段鉴定本文档来自技高网...

【技术保护点】

1.一种混合蛋白质高效鉴定方法,其特征在于,包括:

2.如权利要求1所述的混合蛋白质高效鉴定方法,其特征在于:

3.如权利要求1或2所述的混合蛋白质高效鉴定方法,其特征在于:所述通过MaxDIA的蛋白分析算法,包括以下步骤:

4.如权利要求3所述的混合蛋白质高效鉴定方法,其特征在于:所述估计蛋白质的相对表达水平,包括使用归一化系数Nj与第j次质谱分析中所有的肽离子信号强度相乘来矫正不同次质谱分析间的强度变化,将样本A的肽段离子P的总强度定义为:

5.如权利要求4所述的混合蛋白质高效鉴定方法,其特征在于:所述估计蛋白质的相对表达水平,还包括考虑对肽段信息的选择,使用肽离子信号的相对表达量对蛋白质的相对表达量进行计算,具体来说,对于蛋白质Pro,通过肽段匹配鉴定到其中的肽段P={p1,p2,…pm},且其在样本S={A,B,C…Z}上的XIC的分布强度为XICAm,对肽段进行寻找,用来计算蛋白质Pro在样本A和B上丰度比率的肽段需要在样本A和样本B上同时检测到肽段信号,符合条件的肽段序号的集合需要以下满足条件:

6.如权利要求5所述的混合蛋白质高效鉴定方法,其特征在于:所述经过四种不同标准的过滤,包括:

7.如权利要求6所述的混合蛋白质高效鉴定方法,其特征在于:所述多维蛋白质过滤算法,还包括对输入的蛋白质集合进行筛选,包括以下步骤:

8.一种基于权利要求1~7任一所述的混合蛋白质高效鉴定方法的鉴定系统,其特征在于:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7任一项所述的混合蛋白质高效鉴定方法的步骤。

...

【技术特征摘要】

1.一种混合蛋白质高效鉴定方法,其特征在于,包括:

2.如权利要求1所述的混合蛋白质高效鉴定方法,其特征在于:

3.如权利要求1或2所述的混合蛋白质高效鉴定方法,其特征在于:所述通过maxdia的蛋白分析算法,包括以下步骤:

4.如权利要求3所述的混合蛋白质高效鉴定方法,其特征在于:所述估计蛋白质的相对表达水平,包括使用归一化系数nj与第j次质谱分析中所有的肽离子信号强度相乘来矫正不同次质谱分析间的强度变化,将样本a的肽段离子p的总强度定义为:

5.如权利要求4所述的混合蛋白质高效鉴定方法,其特征在于:所述估计蛋白质的相对表达水平,还包括考虑对肽段信息的选择,使用肽离子信号的相对表达量对蛋白质的相对表达量进行计算,具体来说,对于蛋白质pro,通过肽段匹配鉴定到其中的肽段p={p1,p2,…pm},且其在...

【专利技术属性】
技术研发人员:曾昭沛陈德华张振华杨永生
申请(专利权)人:第牛上海健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1