一种基于代谢组学质谱数据的数字图像编码方法技术

技术编号:37705181 阅读:11 留言:0更新日期:2023-06-01 23:53
本申请公开了一种基于代谢组学质谱数据的数字图像编码方法。该方法按照预设划分条件,对获取到的第一液相色谱

【技术实现步骤摘要】
一种基于代谢组学质谱数据的数字图像编码方法


[0001]本申请涉及数据处理
,尤其涉及一种基于代谢组学质谱数据的数字图像编码方法。

技术介绍

[0002]液相色谱

串联质谱(Liquid chromatography

tandem mass spectrometry,LC

MS)数据可以是包含质荷比(m/z)、色谱保留时间(retention time,RT)以及离子信号强度值的二维矩阵,质谱数据的数字图像编码是指将LC

MS数据信息转换为一种图像,这类图像可被用于构建疾病诊断的深度学习模型。
[0003]然而,如果直接将LC

MS数据编码为常规的数据图像分辨率大小,相近的质谱信号将会出现重叠,使得编码后的图像是多个质谱信号混合后的结果,导致图像分辨率过低,破坏了质谱数据的原始质谱结构,无法反映LC

MS中代谢组学的原始状态。

技术实现思路

[0004]本申请实施例的目的是提供一种基于代谢组学质谱数据的数字图像编码方法、装置和计算机设备,能够解决相关技术中编码后的图像信息是多个质谱信号混合后的结果,导致图像分辨率过低,破坏质谱数据的原始质谱结构,无法反映LC

MS中代谢组学的原始状态的问题。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种基于代谢组学质谱数据的数字图像编码方法,该方法可以包括:
[0007]获取第一液相色谱

串联质谱数据;
[0008]按照预设划分条件,对第一液相色谱

串联质谱数据中预设质量区间内的质荷比进行分组,得到P个组别,P为正整数;
[0009]根据P个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,第一扫描索引为采集第一质荷比所在质谱图的顺序标识;
[0010]对全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像;
[0011]基于与第一多通道图像对应的池化信号强度和图像熵,从第一多通道图像中筛选第一目标图块,第一目标图块的目标池化信号强度满足第一预设条件且第一目标图块的目标图像熵满足第二预设条件,第一目标图块用于训练生物样本分类的深度学习模型。
[0012]在一种可能的实施例中,上述涉及的“根据P个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像”的步骤中,具体可以包括:
[0013]按照第一扫描索引的排布顺序,对每个组别中的第一质荷比进行对齐排列,得到目标二维矩阵;
[0014]将目标二维矩阵表示的图像确定为全代谢组轮廓图像。
[0015]在另一种可能的实施例中,上述涉及的“对全代谢组轮廓图像进行切割和堆叠,得
到第一多通道图像”的步骤中,具体可以包括:
[0016]按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切分,得到N个第一图块,N为正整数;
[0017]按照预设分割顺序,对N个第一图块进行堆叠,得到第一多通道图像。
[0018]在又一种可能的实施例中,上述涉及的“按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切分,得到N个第一图块”的步骤中,具体可以包括:
[0019]在第一图块包括第一类图块和第二类图块的情况下,按照预设分割顺序,通过预设分割窗口,对全代谢组轮廓图像进行切割,得到第一类图块和边缘区域,第一类图块的大小等于预设分割窗口的大小;
[0020]通过预设填充函数,对边缘区域进行填充,得到第二类图块,第二类图块的大小满足预设分割窗口的大小。
[0021]基于此,上述涉及的“基于与第一多通道图像对应的池化信号强度和图像熵,从第一多通道图像中筛选第一目标图块”的步骤中,具体可以包括:
[0022]通过预设池化信号强度算法,根据第一多通道图像中每个第二图块在第一多通道图像中对应位置的信号强度,计算每个第二图块的池化信号强度;以及,通过预设图像熵算法,根据信号强度分布概率,计算每个第二图块的图像熵,其中,信号强度分布概率是由每个第二图块的信号强度计算得到;
[0023]在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵;
[0024]将第一目标池化信号强度和第一目标图像熵对应的图块确定为第一目标图块。
[0025]在再一种可能的实施例中,上述涉及的“在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵”的步骤之前,还可以包括:
[0026]在第一液相色谱

串联质谱数据为多个第一液相色谱

串联质谱数据,多个第一液相色谱

串联质谱数据中的每个第一液相色谱

串联质谱数据对应一个第一多通道图像的情况下,将多个第一多通道图像中第i个第二图块的池化信号强度的平均值确定为第i个第二图块的池化信号强度;以及,将多个第二多通道图像中第i个第二图像的图像熵的平均值确定为第i个第二图像的图像熵,i为正整数。
[0027]第二方面,本申请实施例提供了一种基于第一方面的代谢物分析方法,该方法可以包括:
[0028]获取待检测的生物样本的目标液相色谱

串联质谱数据;
[0029]按照预设划分条件,对目标液相色谱

串联质谱数据中预设质量区间内的质荷比进行分组,得到V个组别,V为正整数;
[0030]根据V个组别的每个组别中的第二质荷比和第二扫描索引,生成目标全代谢组轮廓图像,第二扫描索引为采集第二质荷比所在质谱图的顺序标识;
[0031]对目标全代谢组轮廓图像进行切割和堆叠,得到第三多通道图像;
[0032]根据所述第一目标图块对应的第一目标扫描索引,从第三多通道图像中筛选与所述第一目标扫描索引对应的第二目标图块;
[0033]将第二目标图块堆叠的第四多通道图像和归零图像分别输入到目标深度学习模型,得到第四多通道图像的第一分类预测概率值和归零图像的第二分类预测概率值;其中,目标深度学习模型由如第一方面得到的第一目标图块构建的第二多通道图像训练得到,归零图像由第二目标图块经过归零处理后得到;
[0034]对比第一分类预测概率值和第二分类预测概率值,得到第二目标图块的目标概率值,目标概率值用于表征第二目标图块能够参与生物样本分类的重要程度。
[0035]在一种可能的实施例中,上述涉及的“对比第一分类预测概率值和第二分类预测概率值,得到第二目标图块的目标概率值”的步骤之后,该方法还可以包括:
[0036]根据第二目标图块对应的第二目标扫描索引,获取与第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于代谢组学质谱数据的数字图像编码方法,其特征在于,包括:获取第一液相色谱

串联质谱数据;按照预设划分条件,对所述第一液相色谱

串联质谱数据中预设质量区间内的质荷比进行分组,得到P个组别,P为正整数;根据所述P个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,所述第一扫描索引为采集所述第一质荷比所在质谱图的顺序标识;对所述全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像;基于与所述第一多通道图像对应的池化信号强度和图像熵,从所述第一多通道图像中筛选第一目标图块,所述第一目标图块的目标池化信号强度满足第一预设条件且所述第一目标图块的目标图像熵满足第二预设条件,所述第一目标图块用于训练生物样本分类的深度学习模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述P个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,包括:按照第一扫描索引的排布顺序,对所述每个组别中的第一质荷比进行对齐排列,得到目标二维矩阵;将所述目标二维矩阵表示的图像确定为所述全代谢组轮廓图像。3.根据权利要求1所述的方法,其特征在于,所述对所述全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像,包括:按照预设分割顺序,通过预设分割窗口,对所述全代谢组轮廓图像进行切分,得到N个第一图块,N为正整数;按照所述预设分割顺序,对所述N个第一图块进行堆叠,得到第一多通道图像。4.根据权利要求3所述的方法,其特征在于,所述第一图块包括第一类图块和第二类图块;所述按照预设分割顺序,通过预设分割窗口,对所述全代谢组轮廓图像进行切分,得到N个第一图块,包括:按照预设分割顺序,通过预设分割窗口,对所述全代谢组轮廓图像进行切割,得到所述第一类图块和边缘区域,所述第一类图块的大小等于所述预设分割窗口的大小;通过预设填充函数,对所述边缘区域进行填充,得到所述第二类图块,所述第二类图块的大小满足所述预设分割窗口的大小。5.根据权利要求1所述的方法,其特征在于,所述基于与所述第一多通道图像对应的池化信号强度和图像熵,从所述第一多通道图像中筛选第一目标图块,包括:通过预设池化信号强度算法,根据所述第一多通道图像中每个第二图块在所述第一多通道图像中对应位置的信号强度,计算所述每个第二图块的池化信号强度;以及,通过预设图像熵算法,根据信号强度分布概率,计算所述每个第二图块的图像熵,其中,所述信号强度分布概率是由所述每个第二图块的信号强度计算得到;在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在所述多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵;将所述第一目标池化信号强度和所述第一目标图像熵对应的图块确定为所述第一目
标图块。6.根据权利要求5所述的方法,其特征在于,所述第一液相色谱

串联质谱数据为多个第一液相色谱

串联质谱数据,所述多个第一液相色谱

串联质谱数据中的每个第一液相色谱

串联质谱数据对应一个第一多通道图像;所述在多个第二图块对应的多个池化信号强度中筛选...

【专利技术属性】
技术研发人员:朱正江王洪淼
申请(专利权)人:中国科学院上海有机化学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1