【技术实现步骤摘要】
一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法
[0001]本专利技术涉及单细胞蛋白质组学
,尤其涉及一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法。
技术介绍
[0002]单细胞蛋白质组学改变了传统上从单细胞转录组水平推断蛋白质的不足,为进一步理解细胞发育、肿瘤微环境等方面开创了新的研究方式。单细胞蛋白质组质谱(single
‑
cell proteomics by mass spectrometry,SCoPE
‑
MS)技术极大促进了单细胞蛋白质组学的发展。然而,单细胞蛋白质组学的发展主要受到纳米级样品和复杂的实验程序的限制。数量少、丰度低的蛋白质容易受到噪声的干扰,导致蛋白质鉴定困难。与大量蛋白质数据相比,单细胞中的蛋白质水平较低,质谱数据的MS/MS光谱中可检测到的高信度碎片段离子更加稀少。许多肽段没有产生足够的碎片离子来支持自身被鉴定的置信度,这使得提高单细胞蛋白质组质谱数据的蛋白质覆盖率具有较高的挑战性。
[0003]目前单细胞蛋白质组质谱数据分析方法主要包 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于包括以下步骤:(1)通过质谱实验产生多细胞蛋白质组质谱数据作为谱图库和单细胞蛋白质组质谱数据,并提取高质量的目标肽匹配谱图信息,对多个单细胞蛋白质组质谱数据提取所有的目标和诱饵PSM;(2)基于多个单细胞蛋白质组质谱数据,计算每个肽段保留时间的统计学特征,使用弹性网络模型分别预测目标和诱饵肽段的保留时间,并构建用于区分目标和诱饵PSM的特征;(3)使用多细胞蛋白质组质谱数据作为谱图库,构建深度学习模型预测单细胞蛋白质组二级谱图的碎片离子强度,并产生用于区分目标和诱饵PSM的特征;(4)使用谱图基础特征和基于保留时间和碎片离子强度预测模型产生的新特征作为输入,构建贝叶斯参数优化的集成预测模型,并使用嵌套的三折交叉验证为每个PSM计算分值和后验错误概率;(5)根据每个PSM计算得到的后验错误概率,使用正反库竞争方法计算PSM和蛋白质水平的FDR,选择PSM和蛋白质水平的假发现率低于0.01的PSM并去除诱饵PSM,将可信的PSM通过累加方式组装为肽段和蛋白进行定量。2.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(1)中,利用蛋白质组质谱检索软件检索原始质谱数据,提取PSM信息,检索软件采用MaxQuant;同时对于多个单细胞蛋白质组质谱数据提取所有PSM的特征信息,去除污染PSM,将保留的PSM划分为目标和诱饵PSM。3.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(2)中,构建SampleRT模型用于准确预测肽段保留时间,并产生用于区分目标和诱饵PSM的特征,对于单细胞蛋白质组数据的目标PSM,选取至少在3个SCP质谱样本中被鉴定到的肽段,构建肽段
‑
样本的保留时间,矩阵Y;计算每个肽段的保留时间的算术平均值、几何平均值、中位数、标准差、变异系数、偏度,建立一个肽
‑
RT特征矩阵X,通过X为特征Y为目标,使用弹性网络预测每个PSM的理论预测结果RT(*|tag),可分为目标和诱饵PSM的RT(tag|tag)和RT(rev|tag);同理,基于诱饵PSM得到所有PSM的RT的预测结果RT(*|rev),可分为目标和诱饵PSM的RT(tag|rev)和RT(rev|rev)。4.根据权利要求3所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(2)中,定义DeltaRT描述实际RT和预测理论RT之间的差异,并结合蛋白质质谱检索软件计算的Score和PEP产生两个新的用于区分目标和诱饵PSM的特征,PEPRT和ScoreRT,定义如下:5.根据权利要求1所述的一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法,其特征在于,所述步骤(3)中,构建DeepSpec模型重新评估SCP数据中PSM的可信度;仅考虑肽段前体离子电荷状态1到6的PSM,使用独热码编码将电荷状态编码为一个6元长矩阵;仅考虑肽段长度小于等于47的PSM,对于长度小于47氨基酸肽段序列,使用“N”作为新的编码,
用于补充肽段序列中除20个普通氨基酸以外的内容;对于未发生修饰的氨基酸,使用独热码编码将每个氨基酸编码为一个21元长矩阵;对于有翻译后修饰的氨基酸,N端蛋白质乙酰化和甲硫氨酸氧化分别被编码为“J”和“O”,同时发生N端蛋白质乙酰化和甲硫氨酸氧的氨基酸被编码为“B”;因此,一个包含电荷、肽段的序列和PTM信息的PSM可被编码为48
×
30个特征阵列;由于肽段的最大长度是47,则最大存在46个碎裂点,同时考虑...
【专利技术属性】
技术研发人员:郭雪江,李妍,司徒成昊,王兵,
申请(专利权)人:南京医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。