当前位置: 首页 > 专利查询>西南大学专利>正文

临床蛋白质质谱数据的分类方法技术

技术编号:17667780 阅读:53 留言:0更新日期:2018-04-11 06:09
本发明专利技术提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;S2.从剔除噪声的质谱数据中提取出类别区分特征;S3.采用决策树对类别区分特征进行训练,并将待测的蛋白质质谱数据输入到决策树中进行训练分类,通过本发明专利技术,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。

Classification of clinical protein mass spectrometry data

A classification method of clinical protein mass spectrometry data provided by the invention, which comprises the following steps: pretreatment of S1. on clinical protein mass spectrometry data containing noise, noise elimination of spectrum data from mass spectrometry data to eliminate noise; S2. extracted feature categories; S3. was trained to distinguish categories with the characteristics of decision tree. Protein mass spectrometry data and the measured input to the decision tree classification training, the invention can effectively eliminate the noise of protein mass spectrometry data, and ensure the integrity of the mass spectrometry data eliminate the noise, and does not damage the original features of mass spectrometry data, and the algorithm is accurate, thus ensuring the accuracy of the final classification.

【技术实现步骤摘要】
临床蛋白质质谱数据的分类方法
本专利技术涉及一种分类方法,尤其涉及一种临床蛋白质质谱数据的分类方法。
技术介绍
质谱学是一门研究气相离子结构、性质及反应行为的科学。质谱分析是将生物样本通过激光照射等方法转化为运动的气态离子碎片,并进入质量分析仪在磁场和电场的作用下离子碎片按质荷比(m/z)大小分离并记录得到质谱数据图的分析方法。现在比较重要的质谱分析技术有:辅助激光解析电离飞行时间质谱(MALDI—TOFFMS)和表面加强激光解析电离飞行时间质谱(SELDI—TOFFMS)。质谱分析方法灵敏度高,试样通常只需要微克级,就可得到一张很好的谱图,因此质谱方法被广泛用于分子细胞结构分析。随质谱分析技术的快速提高,质谱数据已得到广泛的研究利用。如应用到医疗治疗中,完成疾病的早期诊断,细菌的识别等。在蛋白质质谱数据分类的问题中,目前大部分研究针对的是成熟的标准质谱数据集,这些数据集都包含了完整且相同的质荷比(m/z)数据,样本数据维度统一,可以直接通过某些特征选择方法提取到对应的生物标志物,从而对不同细胞样本质谱数据进行分类。然而在临床数据获取上,即使在每一个获取MS数据的生物实验中,使用相同的材料,并执行相同的操作流程。不同的实验室环境和多样化的个人操作细节是不可避免的。KathrynA.Jackson曾研究表明培养基的变化,培养条件,培养时间对于产生的质谱数据都有显著影响。所以最后临床得到的数据会存在噪声数据,多个样本得到的质谱数据会存在分子量不对应,特征数杂乱无规律,还包含较多的噪声的问题。因此,为了解决上述技术问题,需要提出一种新的质谱数据的分类方法。专利技术内容有鉴于此,本专利技术的目的是提供一种临床蛋白质质谱数据的分类方法,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。本专利技术提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;S2.从剔除噪声的质谱数据中提取出类别区分特征;S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树中进行训练分类。进一步,步骤S1中,根据如下方法剔除质谱数据中的噪声:S101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值为最大值,如是,则该峰值信号确定为有效的局部峰值信号;S102.对局部有效峰值信号进行两步分窗算法取窗内有效峰值信号的平均值形成剔除噪声的质谱数据。进一步,步骤S102中,根据如下方法进行两步分窗算法处理:将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;采用滑窗处理算法对新的峰值进行处理,剔除噪声。进一步,在对mass坐标分窗时,第一步分窗的窗口宽度取系统最大误差,第二步分窗为新的mass坐标的宽度为2的窗口大小进行滑窗处理。进一步,S201.将步骤S1中剔除噪声的质谱数据样本进行t检验:其中,为第一类样本的均值,σi0为第一类样本的方差;为第二类样本的均值,σi1为第二类样本的方差,Ti为样本中第i个质谱数据的t统计值;S201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征。进一步,步骤S3中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类。本专利技术的有益效果:通过本专利技术,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性。附图说明下面结合附图和实施例对本专利技术作进一步描述:图1为本专利技术的流程图。图2为本专利技术的有效的局部峰值示意图。图3为本专利技术的t统计量用于提取区别特征原理图。图4为本专利技术的遗传算法提取特征的迭代图。具体实施方式以下结合说明书附图对本专利技术做出进一步详细说明:本专利技术提供的一种临床蛋白质质谱数据的分类方法,包括如下步骤:S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;S2.从剔除噪声的质谱数据中提取出类别区分特征;S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树种进行训练分类,其中,决策树分类过程中,集合多棵决策树组成随机森林对前面步骤提取的区别性特征数据,进行训练以及分类;通过本专利技术,能够对蛋白质质谱数据中的噪声进行有效剔除,而且确保剔除噪声的质谱数据的完整性,并且不损坏质谱数据的原有特征,而且算法过程准确,进而确保最终的分类准确性;其中,决策树算法为现有算法,在此不加以赘述。本实施例中,在质谱仪中所获得的质谱数据可以描述为水平轴上为质量电荷比(massM/Z),垂直轴上为离子强度(intensity特征值)的直方图,对于非零强度的条带表示为峰值,相应的M/Z比值称为峰值位置,非零强度称为峰高;在医疗或研究机构临床获取质谱数据过程中,由于实验环境、器材、流程、操作的微小差别都会导致获得含噪声的数据;又由于实际实验环境和操作细节等因素的影响,导致所得质谱数据存在数据缺失和随机误差;因此,步骤S1中,根据如下方法剔除质谱数据中的噪声:S101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值最大值,如是,则该峰值信号确定为有效的局部峰值信号,又称为局部极值蛋白峰,如图2所示,图2中虚线区域内的圆圈标注的即为即为局部极值蛋白峰;S102.对局部有效峰值信号进行两步分窗算法求取所有具有有效峰值信号的平均值形成剔除噪声的质谱数据;具体地:根据如下方法进行两步分窗算法处理:将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗时的各窗口的序列值作为新的mass值;采用滑窗处理算法对新的峰值进行处理,剔除噪声,通过上述的方法,能够有效地剔除数据中存在的各种噪声,而且,在噪声剔除过程中不会对质谱数据的原有特征造成任何影响,确保后续处理中能够准确提取出分类区别特征,从而确保最终结果的准确性。本实施例中,在对mass坐标分窗时,在对mass坐标滑分窗时,第一步分窗的窗口的宽度取系统的最大误差,但测量峰值是可能落在标准峰左右最大系统误差范围内,即2倍最大误差范围内,所以第二步进行对应新mass坐标的宽度为2滑窗处理;通过以上两步分窗的方法,能够有效地剔除噪声,又能够避免质谱数据的过度损失造成分类解结果的不准确性,其中,滑窗处理算法为现有技术,在此不加以赘述。本实施例中,步骤S2中,根据如下方法提取出类别区分特征:S201.将步骤S1中剔除噪声的质谱数据样本进行t检验:第一类样本:第二类样本:其中,为第一类样本的第i个特征的均值,σi0为第一类样本的第i个特征的方差;为第二类样本的第i特征均值,σi1为第二类样本的第i特征的方差,Ti为第i个质谱特征数据的t检验统计值;S201.将t统计值进行排序,选出t统计值最大的10个特征作为先验信息,并采用遗传算法得到质谱数据的类别区分特征;其中,遗本文档来自技高网...
临床蛋白质质谱数据的分类方法

【技术保护点】
一种临床蛋白质质谱数据的分类方法,其特征在于:包括如下步骤:S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;S2.从剔除噪声的质谱数据中提取出类别区分特征;S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树中进行训练分类。

【技术特征摘要】
1.一种临床蛋白质质谱数据的分类方法,其特征在于:包括如下步骤:S1.对含噪的临床蛋白质质谱数据进行预处理,剔除质谱数据中的噪声;S2.从剔除噪声的质谱数据中提取出类别区分特征;S3.采用决策树对类别区分特征进行训练,然后将待测的蛋白质质谱数据输入到决策树中进行训练分类。2.根据权利要求1所述的临床蛋白质质谱数据的分类方法,其特征在于:步骤S1中,根据如下方法剔除质谱数据中的噪声:S101.线性扫描蛋白质质谱数据中的峰值信号,并判断每个峰值信号的峰值是否为左右相邻峰值信号的峰值最大值,如是,则该峰值信号确定为有效的局部峰值信号;S102.对局部有效峰值信号进行两步分窗算法求取窗内有效峰值信号的平均值形成剔除噪声的新的质谱数据。3.根据权利要求2所述的临床蛋白质质谱数据的分类方法,其特征在于:步骤S102中,根据如下方法进行两步分窗算法处理:将质谱数据中的mass坐标按照系统的最大误差进行分窗,然后取每个窗口的平均峰值作为该窗口的新的峰值,并以分窗...

【专利技术属性】
技术研发人员:白娟张自力
申请(专利权)人:西南大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1