基于Transformer的质谱数据定性方法技术

技术编号:37079591 阅读:12 留言:0更新日期:2023-03-29 19:55
本发明专利技术提供了一种基于Transformer的质谱数据定性方法。收集一级高分辨质谱数据,构造基础数据集,所述数据集的数据包括化合物离子的同位素分布数据、质荷比数据以及丰度数据;对数据集数据进行随机抽样,分别构造训练集、验证集、测试集;采用训练集数据对模型进行训练,获得深度学习模型;对训练集数据进行深度数据处理,转换为索引数据格式,进行模型训练,选择出最优模型;采用验证集数据对深度学习模型进行模型验证,对最优模型参数进行调整。相较于传统的质荷比

【技术实现步骤摘要】
基于Transformer的质谱数据定性方法


[0001]本专利技术属于有机分子质谱研究
,更具体地说,是涉及一种基于Transformer的质谱数据定性方法。

技术介绍

[0002]质谱法是通过检测气相离子来检测化合物的现代分析技术,因具备高特异性、高灵度、高普适性被广泛应用于实际领域中。准确的质量测量是由现代质谱仪进行的常规实验。对于分析物定性,首先通过高分辨质谱获取其精确质荷比,数据库检索给出匹配的元素组成和对应的分子式列表。然而,通过用谱峰质荷比—数据库匹配方法鉴定分析物,数据库常常给出分析物一系列分子式列表(有的多达几十个分子式),往往效率较低。此外,在分析大体量的复杂样品时,一级质谱获取样品的混合分析物的数据集,传统质荷比—数据库匹配方法已无法满足大批量样品的质谱高通量分析需求。
[0003]将机器学习技术,尤其是深度学习,应用于图谱分析,可以实现纯数据驱动的形式设计谱图分析。
[0004]基于机器学习最著名的方法之一是MS2PIP,它是基于随机森林构建的,然后通过使用XGBoost算法进行了改进。该方法可实现对质谱的定性分析。但是该方法依赖数据库的辅助分析且对于未知谱图的分析准确率会显著下降。
[0005]Transformer网络结构在自然语言领域已经处于统治地位,在很多任务上超出了其它的方法,如机器翻译、文本生成等。如今越来越多的研究人员正在尝试将Transformer模型强大的建模能力应用到自然科学领域。

技术实现思路

[0006]本专利技术的目的在于提供一种基于Transformer的质谱数据定性方法,以实现高通量、高精度的一级质谱定性分析的问题。
[0007]为实现上述目的,本专利技术采用的技术方案是:
[0008]一种基于Transformer的质谱数据定性方法,包括以下步骤:
[0009]S1:数据收集步骤:收集一级高分辨质谱数据,构造基础数据集,所述数据集的数据包括化合物离子的同位素分布数据、质荷比数据以及丰度数据;
[0010]S2:数据集分类步骤:对数据集数据进行随机抽样,分别构造训练集、验证集、测试集;
[0011]S3:模型训练步骤:采用训练集数据对模型进行训练,获得深度学习模型;所述模型包括Embedding层,位置嵌入层,多头注意力层,LayerNorm层,Linear层,编码器层,解码器层;对训练集数据进行深度数据处理,转换为索引数据格式,进行模型训练,选择出最优模型,作为深度学习模型;
[0012]S4:模型验证步骤:采用验证集数据对深度学习模型进行模型验证,对深度学习模型参数进行调整,包括:对验证集质谱数据进行深度数据处理,将数据集同位素数据输入编
码器层进行编码,并将编码后数据输入解码器层;将真实分子式数据进行深度处理输入解码器层,对解码数据使用贪心搜索对最终结果进行搜索并转换为分子式。
[0013]本专利技术一些实施例中,进一步包括S5模型测试步骤:
[0014]将测试集中的数据进行深度数据处理输入编码器中进行编码,然后通过解码器得出推理结果,测试验证后模型的准确性。
[0015]本专利技术一些实施例中,所述数据收集步骤进一步包括数据初处理步骤,数据初处理方法包括:
[0016]将高分辨质谱数据转换为csv格式,以csv格式文件作为模型训练的基础数据集,以字符格式的同位素数据。
[0017]本专利技术一些实施例中,对数据集数据进行深度处理,获得质谱数据索引序列,所述深度处理步骤包括:
[0018]将csv格式的同位素数据转换为FloatTensor格式的数据,采用token函数将分子式进行拆分为以元素和元素个数为单位的列表;
[0019]构建目标字典和输入字典对拆分后的数据进行索引映射;
[0020]所述输入字典包括:
[0021]分子质量标识:用于表示某一质谱数据集中各分子式的质量;
[0022]离子相对丰度表示:用于表示某一质谱数据集中各分子式中各离子的相对丰度,所述相对丰度为0

100内的数据;
[0023]所述目标字典包括:
[0024]序列开始标识和序列结尾表示:分别用于表示某一分子式对应的索引序列;
[0025]分子式补齐标识:由于元素数量不同,分子式的长度不一样,而分析训练过程中需要保证固定长度的分子式,因此,需要将各分子式补齐为相同长度;
[0026]元素标识:用于表示某一分子式中的元素种类;
[0027]元素数量标识:用于表示某一分子式中各元素的数量;
[0028]采用深度处理后的数据进行模型训练。
[0029]本专利技术一些实施例中,步骤S4中,根据目标字典,对解码数据使用贪心搜索对最终结果进行搜索并转换为分子式。
[0030]本专利技术一些实施例中,对深度处理后质谱数据索引序列中不同的索引标记片段生成标记嵌入以及位置嵌入,再输入编码器层,
[0031]所述位置嵌入算法包括:
[0032][0033][0034]其中:PE
(pos,2i)
、PE
(pos,2i+1)
表示嵌入位置,Pos代表质谱数据索引标记片段中字符的相对位置,d_model是人为指定的经线形层后的输出向量维度,2i是向量维度中的偶数维,2i+1是向量维度的奇数维。
[0035]本专利技术一些实施例中,模型训练的过程中,计算模型误差,根据误差计算结果进行反向传播,更新模型的权重。
[0036]本专利技术一些实施例中,训练集、验证集和测试集的数据量比例为7:2:1。
[0037]本专利技术提供的质谱数据定性方法的有益效果在于:
[0038](1)相较于传统的质荷比

数据库匹配方法,本专利技术设计的基于Transformer的一级高分辨质谱数据定性方法可快速获取分析物的化学式,分析时间短、效率高。
[0039](2)本专利技术不需要依赖数据库,通过模型训练分析的方法,基于待分析物的质谱数据获得其化学式,在数据库无法检索的情况下依旧可以给出相对准确的结果。
[0040](3)在效率成本方面,本专利技术无需进行大量的搜索,计算消耗少,计算时间短,可进行高通量的数据分析。在3080TiGPU下进行分析,单条数据计算时间约为0.12s便可完成对质谱数据的定性分析。通过并行计算技术,可以在短时间内对大批量数据进行计算。
附图说明
[0041]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本专利技术高分辨质谱数据定性方法流程图;
[0043]图2为C
53
H
103
O6同位素分布质谱图;
[0044]图3为Tran本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的质谱数据定性方法,其特征在于:包括以下步骤:S1:数据收集步骤:收集一级高分辨质谱数据,构造基础数据集,所述数据集的数据包括化合物的同位素分布数据、同位素峰的质荷比数据以及相对丰度数据;S2:数据集分类步骤:对数据集数据进行随机抽样,分别构造训练集、验证集、测试集;S3:模型训练步骤:所述模型包括Embedding层,位置嵌入层,多头注意力层,LayerNorm层,Linear层,编码器层,解码器层;对训练集数据进行深度数据处理,转换为索引数据格式,进行模型训练,选择出最优模型,作为深度学习模型;S4:模型验证步骤:采用验证集数据对深度学习模型进行模型验证,对深度学习模型参数进行调整,包括:对验证集质谱数据进行深度数据处理,将数据集同位素数据输入编码器层进行编码,并将编码后数据输入解码器层;将真实分子式数据进行深度处理输入解码器层,对解码数据使用贪心搜索对最终结果进行搜索并转换为分子式。2.如权利要求1所述的基于Transformer的质谱数据定性方法,其特征在于,进一步包括S5模型测试步骤:将测试集中的数据进行深度数据处理输入编码器中进行编码,然后通过解码器得出推理结果,测试验证模型的准确性。3.如权利要求1所述的基于Transformer的质谱数据定性方法,其特征在于,所述数据收集步骤进一步包括数据初处理步骤,数据初处理方法包括:将高分辨质谱数据转换为csv格式,以csv格式文件作为模型训练的基础数据集,以字符格式的同位素数据。4.如权利要求1或2或3所述的Transformer的质谱数据定性方法,其特征在于,对数据集数据进行深度处理,获得质谱数据索引序列,所述深度处理步骤包括:将csv格式的同位素数据转换为FloatTensor格式的数据,采用token函数将分子式进行拆分为以元素和元素个数...

【专利技术属性】
技术研发人员:崔球刘欢崔天伦李世铭祁宽李敏怡王浩然王一岚
申请(专利权)人:中国科学院青岛生物能源与过程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1