一种质谱数据分析方法技术

技术编号:17516676 阅读:71 留言:0更新日期:2018-03-21 01:15
本发明专利技术提供一种质谱数据分析方法,包括样本数据采集步骤、样本数据预处理步骤、数据模型构建及交叉验证步骤、数据模型优化步骤以及样本组别判断步骤。

A method of mass spectrometry data analysis

The invention provides a mass spectrometry data analysis method, including sample data acquisition step, sample data preprocessing step, data model construction and cross validation step, data model optimization step and sample group judgement step.

【技术实现步骤摘要】
一种质谱数据分析方法
本专利技术涉及机器学习应用领域,特别涉及一种质谱数据分析方法。
技术介绍
机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人组的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,可应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序等诸多领域。机器学习算法是一组从已知数据中自动分析及获得规律并利用规律对未知数据进行预测的算法。质谱数据,是使用专门的仪器使样品发生电离,生成不同荷质比的带电荷离子,再利用外加电场使得不同荷质比的离子在空间上或时间上分离,进而得到质谱数据。不同质荷比的离子经质量分析器分开后,被检测并记录下来,经计算机处理后生成质谱图。在生物、化学及医学领域,经常会涉及到根据成分对体液样本进行的分类问题,一般来说,技术人员大多使用单独分析、分别对比的方法,这种方法的优势在于,样品成分清楚,分类准确;其不足之处在于,当需要分类的体液样本种类较多时,需要消耗大量时间和大量资源,人力成本较高。如何根据已知类别的体液样本,推断出新的体液样本的类别,一直是科研人员的重要研究课题。以医学领域为例,目前已知的某些疾病患者的体液内往往会存在一些相同的特殊成分,这些成分可能是导致患者患有同类疾病的病因,也可能是因某类疾病的表现特征。在临床上,如果查到某患者体液内存在某一类成分,就可以将该患者与某一种或某一类疾病建立关联,为临床诊断提供数据支持。由于人体是非常复杂的有机体,疾病的诊断和治疗方案的选择都需要专业医务人员针对每一个体海量数据做出判断,诊断效率较低,人力成本较高。当需要做检查的患者人数较多时,患者需要长时间排队,医生连续工作也会比较辛苦,每个病人的诊疗时间较短,很容易出现误诊的情况。因此,在临床医学中,需要有一种能同时可以对大量体液样本作出成分分析的医学设备,可以根据已知的健康人群和患者的大量体液样本,在短时间内检测和分析大量未知样本中是否含有某些特定成分,从而辅助医务人员可以更加方便准确地作出诊断。
技术实现思路
本专利技术的目的在于:提供一种质谱数据分析方法,以解决现有技术中存在的当需要分类的体液样本数量较多时,需要消耗大量时间和大量资源,人力成本较高的技术问题。为解决上述技术问题,本专利技术提供一种质谱数据分析方法,包括如下步骤:样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。进一步地,所述样本数据采集步骤,具体包括如下步骤:获取两个以上体液样本;将全部所述体液样本在一平板上排列成矩阵;以及利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据。进一步地,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;所述平板包括但不限于基质金属板;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。进一步地,每一组质谱数据包括体液样本中一离子的质荷比值及对应该离子的信号实测强度值;每一组质谱数据对应所述质谱图中一个采样点;每一个采样点的横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。进一步地,所述样本数据预处理步骤具体包括如下步骤:基线校正步骤,用以对所述质谱图中的质谱数据做基线校正处理;重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,获得重采样质谱数据;标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。进一步地,所述基线校正步骤具体包括如下步骤:信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比值对应的基线信号强度;信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度;重复所述信号计算步骤及所述信号校正步骤,依次完成每一体液样本的每一组质谱数据的校正。进一步地,所述重采样步骤具体包括如下步骤:有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。进一步地,所述重采样算法是指:设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;利用以下公式计算重采样后的质荷比坐标其中,N大于104且小于105。进一步地,所述标准化步骤具体包括如下步骤:信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值总和S;标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T;信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理。进一步地,所述数据模型构建及交叉验证步骤,具体包括如下步骤:任选一训练样本作为标准训练样本,其组别标签已知;以所述标准训练样本的位置为圆心,以特定长度r为半径,在所述平板上设定一个圆形区域;根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量每一训练样本的组别标签记录在向量中;利用稀疏学习优化算法建立初级数据模型将所述标准训练样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取所述标准训练样本的推测组别标签;对比所述标准训练样本的推测组别标签与其组别标签,若二者相同,则判定所述标准训练样本的组别标签推测正确,正确度计数器加一;依次将每一个训练样本作为标准训练样本,重复上述各个步骤,对所有的训练样本进行交叉验证处理,计算出在半径为r的情况下所述训练样本的组别标签判断准确率,所述组别标签判断准确率为正确度计数器的数值与所述训练样本总数的比值;调整半径r的大小,重复上述各个步骤,计算出在半径r为不同数值的情况下的组别标签判断准确率;从本文档来自技高网
...
一种质谱数据分析方法

【技术保护点】
一种质谱数据分析方法,其特征在于,包括如下步骤:样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。

【技术特征摘要】
1.一种质谱数据分析方法,其特征在于,包括如下步骤:样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。2.如权利要求1所述的质谱数据分析方法,其特征在于,所述样本数据采集步骤,具体包括如下步骤:获取两个以上体液样本;将全部所述体液样本在一平板上排列成矩阵;以及利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据。3.如权利要求2所述的质谱数据分析方法,其特征在于,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;所述平板包括但不限于基质金属板;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。4.如权利要求1或2所述的质谱数据分析方法,其特征在于,每一组质谱数据包括样本中一离子的质荷比值及对应该离子的信号实测强度值;每一组质谱数据对应所述质谱图中一个采样点;每一个采样点的横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。5.如权利要求1所述的质谱数据分析方法,其特征在于,所述样本数据预处理步骤具体包括如下步骤:基线校正步骤,用以对所述质谱图中的质谱数据做基线校正处理;重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,获得重采样质谱数据;以及标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。6.如权利要求5所述的质谱数据分析方法,其特征在于,所述基线校正步骤具体包括如下步骤:信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比值对应的基线信号强度;信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度;以及重复所述信号计算步骤及所述信号校正步骤,依次完成每一体液样本的每一组质谱数据的校正。7.如权利要求5所述的质谱数据分析方法,其特征在于,所述重采样步骤具体包括如下步骤:有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。8.如权利要...

【专利技术属性】
技术研发人员:王乾胡畅
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1