基于微生物质谱仪的加权微生物聚类分析法制造技术

技术编号:21304006 阅读:39 留言:0更新日期:2019-06-12 09:09
本发明专利技术公开了一种基于微生物质谱仪的加权微生物聚类分析法,首先将待聚类分析的n个菌株各自作为一类,并按照规定的菌株相似度距离计算类与类之间的相似度距离,然后将所述相似度距离最近的两类合并为一个新类,经过此过程变为n‑1个类;重复递归上述过程,每次递归减少一类,直至最终合并为一个类,其中,n为大于或等于3的自然数。本发明专利技术优点在于本加权微生物离聚类分析法在成本和分类速度上明显优于微生物DNA序列分析方法,在准确性上接近DNA序列分析方法;与目前行业内已经存在的微生物质谱聚类分析方法相比,本方法在准确率和运行速度上占有明显优势。

Weighted Microbial Clustering Analysis Based on Microbial Mass Spectrometer

The invention discloses a weighted microbial clustering analysis method based on microbial mass spectrometer. Firstly, n strains to be clustered are classified as one group, and the similarity distance between classes and classes is calculated according to the prescribed similarity distance of strains. Then, the two classes with the closest similarity distance are merged into a new class, which is transformed into n_1 classes by this process. The process reduces one class recursively at a time until it is finally merged into one class, where n is a natural number greater than or equal to 3. The advantages of the present invention are that the weighted microbial isolation cluster analysis method is superior to the microbial DNA sequence analysis method in cost and classification speed, and is close to the DNA sequence analysis method in accuracy; compared with the existing microbial mass spectrometry cluster analysis method in the industry, the method has obvious advantages in accuracy and operation speed.

【技术实现步骤摘要】
基于微生物质谱仪的加权微生物聚类分析法
本专利技术涉及微生物聚类分析法,尤其是涉及基于微生物质谱仪的加权微生物聚类分析法。
技术介绍
微生物的分类研究已有多年的历史,早期都是根据微生物的生理生化特征、形态特征等表型特征进行的。然而这些表型特征受环境影响较大,没有客观的量化指标,因此并不是稳定的,因此分类的结果具有一定随机性,不能反映微生物间的本质关系。而经过质谱采集得到的表征微生物蛋白质图谱是较为稳定的、且反映微生物的本质特点,行业内将质谱仪采集图谱形象的称为“微生物指纹”。因此,利用菌株间质谱图的差异性来判断它们之间的亲缘关系的远近是一个较为精准的方法。数据挖掘是一种从大量数据中发掘、提取有用的、深层次信息的方法。基于数据挖掘,微生物聚类分析是将具有某种相似性的微生物聚集划分,用来对菌种进行量化分类,在临床应用有较多应用;例如,在得到大量菌株后需要进一步分析菌株的特征,使用聚类分析快速分类后对同一类的菌株只需挑选一个典型的菌株研究,而不需要每一种菌株都研究,这种分类“筛选”大大缩小了研究的工作量。另外,在科研领域也可以用来发现大量菌株数据的潜在关系,与具体应技术相结合对未知菌株进行预测、定性,从而帮助我们从已知功能和结构的菌株推测未知菌株的可能功能和结构,是微生物应用、科研领域必不可少的利器。目前对微生物做聚类分析比较常见的有三种方法:1、根据培养的细菌形态特征、生理生化特征等表型特征进行分类,这种方法受菌株培养环境的影响很大,同时对菌株间的关系缺少客观的量化指标,因此该方法具有较大的随机性,并不能特别准确的反映微生物间的亲缘关系。2、根据微生物DNA序列分析微生物的遗传进化关系来进行分类,这种方法虽然准确率较高,获取微生物DNA序列过程中用到的试剂、芯片成本较高;另一方面,目前DNA测序流程较为繁琐花费较多时间,而且在得到测序结果后需要较为专业人员进行分析;并且对于未知菌株,在获取DNA序列过程中投入的时间、价格成本使得此方法在临床及科研上的应用受到很大限制。3、根据微生物质谱图谱进行聚类分析,目前市场主流的质谱仪分析软件基本都带有聚类分析功能,但是主要缺点是准确率不高、软件相应功能运行速度较慢。例如,虽然大肠埃希氏菌、摩氏摩根菌、肺炎克雷伯菌在科水平上一致,但是从蛋白质组学上看大肠埃希氏菌与肺炎克雷伯菌的亲缘关系更近,目前市场上大部分质谱仪聚类分析功能都无法区分出差别。
技术实现思路
本专利技术目的在于提供一种基于微生物质谱仪的加权微生物聚类分析法,实现提高菌株聚类分析的准确性和效率。为实现上述目的,本专利技术采取下述技术方案:本专利技术所述基于微生物质谱仪的加权微生物聚类分析法,首先将待聚类分析的n个菌株各自作为一类,并按照规定的菌株相似度距离计算类与类之间的相似度距离,然后将所述相似度距离最近的两类合并为一个新类,经过此过程变为n-1个类;重复递归上述过程,每次递归减少一类,直至最终合并为一个类,其中,n为大于或等于3的自然数。所述菌株相似度距离包括菌株之间的相似度距离和菌株类之间的相似度距离;一、所述菌株之间的相似度距离计算:按照一定信噪比阈值(一般是3)选取菌株峰列表的m/z(峰位置)、强度进行计算;首先按照设定误差找到两个菌株图谱中位置相同的峰,对于二维的数据采取三个指标进行融合计算;两个菌株图谱峰位置相同的峰值分别设为(x11,y11)、(x12,y12)…(x1n,y1n),(x21,y21)、(x22,y22)…(x2n,y2n),其中,x表示质量;m/z:测定离子的质荷比,即粒子的质量数与所带的电荷的比值;y表示强度;x1i=x2i;步骤1、皮尔森相关系数:公式(1);公式(2);公式(3);公式(4);公式(5);公式(6);公式(7);步骤2、斯皮尔曼相关系数:公式(8);步骤3、峰值曲线拟合后的切线对比:对图谱峰值点进行插值曲线拟合,对于每个峰值的切线与X轴的夹角设为ɑ,切线相关系数为:公式(9);根据上述相关指标取权重:菌株之间的相似度距离Dist=a×+b×+c×(10)其中:a、b、c为常数,根据大量实验选择,a取0.68,b取0.18,c取0.14;二、所述菌株类之间的相似度距离计算为:计算单个菌株之间的相似度距离,然后采取自底向上的类合并过程;菌株类之间的相似度距离由不同类型的指标按照权重叠加组成,分别是:交叉距离、重心距离、边界距离三种距离按照权重叠加组成;交叉距离:对于两个菌株类、,其中,,找出属于两个所述菌株类中组合的所有菌株对,并根据公式(10)计算所述菌株对之间的相似度距离Dist并做算术平均,得到以下公式:公式(11);其中、之间的相似度距离,根据公式(6),;重心距离:对于菌株类ɑ=,按照每个菌株的峰值求交集,求交集的容差小于250ppm,得到一个新的峰列表即(x1,y1)、(x2,y2)……(xk,yk);其中:(xi,yi)、且(xi,yi)……且(xi,yi),将一个菌株类转换为一个新的菌株,对于两个菌株类、转换成两个峰列表,根据公式(10)计算两个峰列表交集,得到菌株类的交集距离:;边界距离:对于菌株类ɑ=,按照每个菌株的峰值求并集得到一个新的峰列表即(x1,y1)、(x2,y2)……(xk,yk);其中:或(xi,yi)、或(xi,yi)…或(xi,yi),类似于菌株类交集峰距离可以求得菌株类并集距离;菌株类之间的相似度距离公式(12);其中:定义为交叉距离、定义为重心距离、定义为边界距离;根据菌株之间的相似度距离和菌株类之间的相似度距离,把差异小的样本聚成一簇,最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高;三、聚类分析树的构造:采取层次聚类法迭代递归的方法求取聚类分析树,所述层次聚类法是一系列连续的合并和分解过程,自底向上的连续合并或自顶向下的连续分解;本文采取自底向上的递归过程合并过程;首先设定有个菌株待聚类分析,将单个菌株看作一个菌株类,此时有n个菌株类;步骤4、由公式(10)或(12)求得菌株之间或菌株类之间的两两相似度距离,对于n个菌株总共有种组合,选出相似度距离最小的一组菌株对组合,并将归为一类;由此n个菌株类变为n-1个菌株类,由此完成了一次归类计算;步骤5、重复步骤4,每次经过归类后,待聚菌株类减少一类,不断层次递归归类;步骤6、直至最后菌株类只剩两个菌株类,将最后的两个菌株类合并为一个菌株类,完成加权微生物聚类分析。本专利技术优点在于本加权微生物离聚类分析法在成本和分类速度上明显优于微生物DNA序列分析方法,在准确性上接近DNA序列分析方法;与目前行业内已经存在的微生物质谱聚类分析方法相比,本方法在准确率和运行速度上占有明显优势。附图说明图1是本专利技术的流程示意图。图2是本专利技术所述的微生物聚类分析结果图。图3是本专利技术实施例所述九种标准菌株的聚类分析图谱。具体实施方式下面结合附图对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述实施例。如图1所示,本专利技术所述基于微生物质谱仪的加权微生物聚类分析法,首先将待聚类分析的n个菌株各自作为一类,并按照规定的菌株相似度距离计算类与类之间的相似度距离,然后将所述相似度距离最近的两类合并为一个本文档来自技高网
...

【技术保护点】
1.一种基于微生物质谱仪的加权微生物聚类分析法,其特征在于:首先将待聚类分析的n个菌株各自作为一类,并按照规定的菌株相似度距离计算类与类之间的相似度距离,然后将所述相似度距离最近的两类合并为一个新类,经过此过程变为n‑1个类;重复递归上述过程,每次递归减少一类,直至最终合并为一个类,其中, n为大于或等于3的自然数。

【技术特征摘要】
1.一种基于微生物质谱仪的加权微生物聚类分析法,其特征在于:首先将待聚类分析的n个菌株各自作为一类,并按照规定的菌株相似度距离计算类与类之间的相似度距离,然后将所述相似度距离最近的两类合并为一个新类,经过此过程变为n-1个类;重复递归上述过程,每次递归减少一类,直至最终合并为一个类,其中,n为大于或等于3的自然数。2.根据权利要求1所述基于微生物质谱仪的加权微生物聚类分析法,其特征在于:所述菌株相似度距离包括菌株之间的相似度距离和菌株类之间的相似度距离;一、所述菌株之间的相似度距离计算:按照一定信噪比阈值选取菌株峰列表的m/z、强度进行计算;首先按照设定误差找到两个菌株图谱中位置相同的峰,对于二维的数据采取三个指标进行融合计算;两个菌株图谱峰位置相同的峰值分别设为(x11,y11)、(x12,y12)…(x1n,y1n),(x21,y21)、(x22,y22)…(x2n,y2n),其中,x表示质量;m/z:测定离子的质荷比,即粒子的质量数与所带的电荷的比值;y表示强度;x1i=x2i;步骤1、皮尔森相关系数:公式(1);公式(2);公式(3);公式(4);公式(5);公式(6);公式(7);步骤2、斯皮尔曼相关系数:公式(8);步骤3、峰值曲线拟合后的切线对比:对图谱峰值点进行插值曲线拟合,对于每个峰值的切线与X轴的夹角设为ɑ,切线相关系数为:公式(9);根据上述相关指标取权重:菌株之间的相似度距离Dist=a×+b×+c×(10)其中:a取0.68,b取0.18,c取0.14;二、所述菌株类之间的相似度距离计算为:计算单个菌株之间的相似度距离,然后采取自底向上的类合并过程;菌株类之间的相似度距离由不同类型的指标按照权重叠加组成,分别是:交叉距离、重心距离、边界距离三种距离按照权重叠加组成;交叉距离:对于两个菌株类、,其中,,...

【专利技术属性】
技术研发人员:肖勇杰蔡克亚赵高岭封松利
申请(专利权)人:安图实验仪器郑州有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1