【技术实现步骤摘要】
一种基于代谢组学质谱数据的数字图像编码方法
[0001]本申请涉及数据处理
,尤其涉及一种基于代谢组学质谱数据的数字图像编码方法。
技术介绍
[0002]液相色谱
‑
串联质谱(Liquid chromatography
‑
tandem mass spectrometry,LC
‑
MS)数据可以是包含质荷比(m/z)、色谱保留时间(retention time,RT)以及离子信号强度值的二维矩阵,质谱数据的数字图像编码是指将LC
‑
MS数据信息转换为一种图像,这类图像可被用于构建疾病诊断的深度学习模型。
[0003]然而,如果直接将LC
–
MS数据编码为常规的数据图像分辨率大小,相近的质谱信号将会出现重叠,使得编码后的图像是多个质谱信号混合后的结果,导致图像分辨率过低,破坏了质谱数据的原始质谱结构,无法反映LC
–
MS中代谢组学的原始状态。
技术实现思路
[0004]本申请实施例的目的是提供一种基于代谢组学质谱数据的数字图像编码方法、装置和计算机设备,能够解决相关技术中编码后的图像信息是多个质谱信号混合后的结果,导致图像分辨率过低,破坏质谱数据的原始质谱结构,无法反映LC
–
MS中代谢组学的原始状态的问题。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种基于代谢组学质谱数据的数字图像编码方法,该方 ...
【技术保护点】
【技术特征摘要】
1.一种基于代谢组学质谱数据的数字图像编码方法,其特征在于,包括:获取第一液相色谱
‑
串联质谱数据;按照预设划分条件,对所述第一液相色谱
‑
串联质谱数据中预设质量区间内的质荷比进行分组,得到P个组别,P为正整数;根据所述P个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,所述第一扫描索引为采集所述第一质荷比所在质谱图的顺序标识;对所述全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像;基于与所述第一多通道图像对应的池化信号强度和图像熵,从所述第一多通道图像中筛选第一目标图块,所述第一目标图块的目标池化信号强度满足第一预设条件且所述第一目标图块的目标图像熵满足第二预设条件,所述第一目标图块用于训练生物样本分类的深度学习模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述P个组别的每个组别中的第一质荷比和第一扫描索引,生成全代谢组轮廓图像,包括:按照第一扫描索引的排布顺序,对所述每个组别中的第一质荷比进行对齐排列,得到目标二维矩阵;将所述目标二维矩阵表示的图像确定为所述全代谢组轮廓图像。3.根据权利要求1所述的方法,其特征在于,所述对所述全代谢组轮廓图像进行切割和堆叠,得到第一多通道图像,包括:按照预设分割顺序,通过预设分割窗口,对所述全代谢组轮廓图像进行切分,得到N个第一图块,N为正整数;按照所述预设分割顺序,对所述N个第一图块进行堆叠,得到第一多通道图像。4.根据权利要求3所述的方法,其特征在于,所述第一图块包括第一类图块和第二类图块;所述按照预设分割顺序,通过预设分割窗口,对所述全代谢组轮廓图像进行切分,得到N个第一图块,包括:按照预设分割顺序,通过预设分割窗口,对所述全代谢组轮廓图像进行切割,得到所述第一类图块和边缘区域,所述第一类图块的大小等于所述预设分割窗口的大小;通过预设填充函数,对所述边缘区域进行填充,得到所述第二类图块,所述第二类图块的大小满足所述预设分割窗口的大小。5.根据权利要求1所述的方法,其特征在于,所述基于与所述第一多通道图像对应的池化信号强度和图像熵,从所述第一多通道图像中筛选第一目标图块,包括:通过预设池化信号强度算法,根据所述第一多通道图像中每个第二图块在所述第一多通道图像中对应位置的信号强度,计算所述每个第二图块的池化信号强度;以及,通过预设图像熵算法,根据信号强度分布概率,计算所述每个第二图块的图像熵,其中,所述信号强度分布概率是由所述每个第二图块的信号强度计算得到;在多个第二图块对应的多个池化信号强度中筛选满足第一预设条件的第一目标池化信号强度,以及在所述多个第二图块对应的多个图像熵中筛选满足第二预设条件的第一目标图像熵;将所述第一目标池化信号强度和所述第一目标图像熵对应的图块确定为所述第一目
标图块。6.根据权利要求5所述的方法,其特征在于,所述第一液相色谱
‑
串联质谱数据为多个第一液相色谱
‑
串联质谱数据,所述多个第一液相色谱
‑
串联质谱数据中的每个第一液相色谱
‑
串联质谱数据对应一个第一多通道图像;所述在多个第二图块对应的多个池化信号强度中筛选...
【专利技术属性】
技术研发人员:朱正江,王洪淼,
申请(专利权)人:中国科学院上海有机化学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。