基于IM-DIAT数据结构的应用方法及其应用技术

技术编号:32127260 阅读:11 留言:0更新日期:2022-01-29 19:18
本发明专利技术涉及基于IM

【技术实现步骤摘要】
基于IM

DIAT数据结构的应用方法及其应用


[0001]本专利技术涉及非依赖性采集质谱的蛋白质组学
,具体涉及基于IM

DIAT数据结构的应用方法及其应用。

技术介绍

[0002]结合多种分离方法的数据依赖采集(Data

dependent acquisition,DDA)是临床样本等复杂样本最广泛采用的基于质谱的蛋白质组学策略。与DDA相比,DIA通过前体口窗的顺序分离和碎片化,获得所有可能前体的所有片段模式(MS2),克服了DDA对前体离子随机选择的问题,实现了高蛋白覆盖率和高复制的优点。
[0003]在捕获离子迁移谱仪(timsTOF Pro)中实现的dia

PASEF通过平行积累-串联碎片(PASEF)的质量和离子迁移率的相关性,允许肽段前体离子几乎100%的传输。这大大降低了数据独立采集(DIA)的光谱复杂性,并提高了蛋白鉴定的敏感性和特异性,通过添加第四维从四极杆质谱仪分离选择的离子迁移率可以通过PASEF同步扫描,与仅限于1

3%的离子采样效率典型DIA方法相比,进一步将四极杆质谱仪的离子采样效率提高到100%,这从本质上提高了采集的灵敏度。但是相关软件工具尚未完全支持这种新兴的新型数据。
[0004]而且传统方法需要先进行搜库,然后在搜库结果上进行数据处理,这样的缺点有二:提取离子色谱峰(XIC)需要大量计算且依赖于库的肽段数量,需识别DIA

MS数据中的肽前体,而往往存在大量缺失值使搜库结果矩阵存在大量缺失值。
[0005]因此提出了如CN111370072B-基于数据非依赖采集质谱的分子组学数据结构的实现方法,可通过深度学习算法可以直接分析DIAT张量,避免了提取离子色谱峰(XIC)需要大量计算的问题。最后,根据该格式文件可以直接建立临床样本分类的深度学习模型。该方法使用端到端深度学习框架构建从原始MS数据到诊断分类器的函数映射,无需识别DIA

MS数据中的肽前体,从而避免了缺失值的问题,但是这种方法不适合dia

PASEF这种新型的采集方式,而且重要的离子淌度信息没有被保留下来,因此亟待一种基于IM

DIAT数据结构的应用方法及其应用。

技术实现思路

[0006]本专利技术的目的是针对现有技术中存在的上述问题,提供了基于IM

DIAT数据结构的应用方法及其应用。
[0007]为了实现上述专利技术目的,本专利技术采用了以下技术方案:基于IM

DIAT数据结构的应用方法包括以下步骤:
[0008]提取质谱原始文件中质谱信息的必要属性;
[0009]将该必要属性转换计算得到窗口索引、循环索引、离子淌度及质荷比,并分别与信号峰度一一对应作为IM

DIAT数据结构的四个维度形成IM

DIAT数据结构;
[0010]将所述IM

DIAT数据结构经过图像处理转换为深度学习能够利用的二维多通道图像数据;
[0011]将所述二维多通道图像数据作为深度学习的训练数据得到分类结果。
[0012]工作原理及有益效果:1、与现有技术相比,本申请能够从质谱原始文件中提取并经过计算得到具有四个维度的IM

DIAT数据结构,其中由于增加了离子迁移率,能够让质荷比维度不能区分的肽段离子在新增的离子迁移率(离子淌度)的维度上分离,也就是通过添加第四维从四极杆质谱仪分离选择的离子迁移率可以通过PASEF同步扫描,与仅限于1

3%的离子采样效率典型DIA方法相比,进一步将四极杆质谱仪的离子采样效率提高到100%。
[0013]2、彻底解决了现有技术的DIAT(Data

Independent Acquisition Tensor)张量格式数据不适合dia

PASEF这种新型的采集方式,重要的离子淌度信息没有被保留下来的问题,由于同样为DIAT数据格式,因此同时同样具有现有技术的DIAT张量格式数据的读取序列不受限制,大大提高了数据读取速度,减少了质谱数据文件所需的存储空间的优点,也解决了因为额外的维度显著增加了数据存储、目标数据提取、数据存储文件大小以及计算成本的问题。而且通过深度学习算法可以直接分析DIAT张量,避免了提取离子色谱峰(XIC)需要大量计算的问题;
[0014]3、与现有技术的DIAT张量格式数据一样,本申请的IM

DIAT数据结构能够减少原始文件大小,而且本申请的IM

DIAT数据结构还能够直接接受神经网络分析,通过神经网络分析得到分类结果,可更好地应用于医学领域,尤其是用于甲状腺良恶性判别。
[0015]进一步地,IM

DIAT数据结构基于TimsTOF Pro质谱仪的蛋白质组学定量。
[0016]此设置,由于TimsTOF Pro质谱仪的本身特性和功能,本申请实际上是从该质谱仪上获取的原始数据中整理出有用的数据,因此本申请在常见的diaPASEF质谱数据上皆可应用,如蛋白组学,代谢组学以及各种小分子DIA质谱数据,应用范围广。TimsTOF Pro凭借其专有的捕集离子淌度质谱(TIMS)技术,可以更快、更灵敏、稳定地完成蛋白质组学分析,独特的PASEF技术打破数据采集速度新纪录,为蛋白组学带来更高的灵敏度和速度。因此,对于利用上述组学数据分析所进行的研发得到的试剂盒,质谱文件分析软件产品,其中的技术过程均可由本申请中的IM

DIAT数据结构或者叫IM

DIAT数据格式和对应分析流程所取代。
[0017]进一步地,图像处理转换的具体步骤为:
[0018]对所述IM

DIAT数据结构的数据下采样并进行数据增广;
[0019]对数据增广后的所述IM

DIAT数据结构进行最大池化、平均池化及最小池化操作。
[0020]由于质谱数据的窗口和离子淌度不存在连续关系,即固定其他变量,相邻窗口或相邻离子淌度的信号峰度没有相关性,而质荷比和周期指数是连续变量,导致深度学习无法直接利用,因此通过上述图像处理转换步骤可以将原先的4D数据(窗口索引、循环索引、离子淌度及质荷比)转换成深度学习可以直接利用的二维多通道图像数据。
[0021]进一步地,深度学习采用数据增广后的二维多通道图像数据进行训练;
[0022]随机添加白噪声并对每个通道进行平移操作;
[0023]分别预测每个数据的最大池化数据、平均池化数据及最小池化数据,并取平均值作为最终的预测值得到分类结果,其中每个数据为二维多通道图像数据经过训练和平移操作后的数据。
[0024]此设置中,由于二维多通道图像数据的通道数中,将质荷比与周期指数作为图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于IM

DIAT数据结构的应用方法,其特征在于,包括以下步骤:提取质谱原始文件中质谱信息的必要属性;将该必要属性转换计算得到窗口索引、循环索引、离子淌度及质荷比,并分别与信号峰度一一对应作为IM

DIAT数据结构的四个维度形成IM

DIAT数据结构;将所述IM

DIAT数据结构经过图像处理转换为深度学习能够利用的二维多通道图像数据;将所述二维多通道图像数据作为深度学习的训练数据得到分类结果。2.根据权利要求1所述的基于IM

DIAT数据结构的应用方法,其特征在于,IM

DIAT数据结构基于TimsTOF Pro质谱仪的蛋白质组学定量。3.根据权利要求1所述的基于IM

DIAT数据结构的应用方法,其特征在于,图像处理转换的具体步骤为:对所述IM

DIAT数据结构的数据下采样并进行数据增广;对数据增广后的所述IM

DIAT数据结构进行最大池化、平均池化及最小池化操作。4.根据权利要求3所述的基于IM

DIAT数据结构的应用方法,其特征在于,深度学习采用数据增广后的二维多通道图像数据进行训练;随机添加白噪声并对每个通道进行平移操作;分别预测每个数据的最大池化数据、平均池化数据及最小池化数据,并取平均值作为最终的预测值得到分类结果,其中每个数据为二维多通道图像数据经过训练和平移操作后的数据。5.根据权利要求4所...

【专利技术属性】
技术研发人员:郭天南张芳菲胡一凡
申请(专利权)人:西湖实验室生命科学和生物医学浙江省实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1