【技术实现步骤摘要】
一种基于菌群拉曼特征快速识别样品类别的方法
[0001]本专利技术涉及一种基于菌群拉曼特征快速识别样品类别的方法,属于微生物与生态学应用领域。
技术介绍
[0002]拉曼光谱(Raman spectra),是一种散射光谱。拉曼光谱分析法是基于印度科学家C.V.拉曼(Raman)所发现的拉曼散射效应,对与入射光频率不同的散射光谱进行分析以得到分子振动、转动方面信息,并应用于分子结构研究的一种分析方法。一般而言,拉曼光谱是特定分子或材料独有的化学指纹。近年来发现,拉曼光谱可应用于生物领域,应用拉曼光谱对单个细胞分析,单个细胞的拉曼光谱是其胞内组分分子振动模式的叠加,由分别对应于一类化学键的拉曼谱峰组成,反映的是单个细胞内代谢物的组成及相对含量的多维信息。单个细胞样品往往是液状菌悬液或滴于拉曼芯片的菌悬液风干样品类型,然后利用显微镜镜下对菌悬液或菌悬液滴于拉曼芯片的风干样品中单个细胞聚焦,针对单个细胞一个一个进行拉曼光谱采集。该技术已在检测单个细胞“胞内组分”、“底物代谢”等领域均取得了一些重要成果。但该技术较少涉及到微生物群落领域。对于来自同一环境样品往往代表着一个微生物群落,针对此复杂微生物样品的拉曼检测需要成千上万个单细胞采集量,才能充分地反映该样品中微生物群落多样性,采集量越大越能完整的表征样品的细胞多样性信息。但这种拉曼光谱检测单细胞的方法耗时耗力,分析数据复杂,大量单细胞数据建立数学建模鉴定分析微生物群落样品类型不易。
[0003]微生物以群落形式广泛存在于自然环境中,环境中存在着庞大而复杂的微生物群落 ...
【技术保护点】
【技术特征摘要】
1.一种用于快速识别样品类别的模型,其特征在于,所述模型是按照下述步骤建立的:(1)标准样品的收集:收集环境样品,将样品离心后收集沉淀,再将沉淀悬浮在无菌水中,得到悬浮液,将悬浮液离心后,取沉淀,再使用无菌水重悬,重复至少2次,得到菌悬液;(2)菌悬液的预处理将步骤(1)得到的菌悬液进行细胞破碎,并过滤除去细胞碎片及固体颗粒,得到细胞破碎液;(3)拉曼光谱检测:将步骤(2)得到的细胞破碎液置于无荧光背景信号的容器中,或直接将步骤(2)得到的细胞破碎液点样于拉曼检测芯片上并风干;使用拉曼平台对无荧光背景信号的容器中的细胞破碎液或拉曼检测芯片上的细胞破碎液进行拉曼光谱的采集,其中,光谱采集条件为:使用532nm激光,扫描光谱范围为500~3750cm
‑1,激光强度为1~300mW,采集时间为1~20s/次,累积次数1次,不同类别样品分别采集50~1000个光谱;(4)拉曼光谱数据的处理:将步骤(3)得到的拉曼光谱数据进行宇宙射线的消除、背景噪音的去除、对基线进行校正处理、Savitzky
‑
Golay平滑并对所有的数据进行归一化处理;(5)构建模型:分别使用K最邻近法(KNN)机器学习算法、支持向量机(SVM)机器学习算法、线性判别降维(LDA)机器学习算法、极致梯度提升(XGBoost)机器学习算法将步骤(4)得到的不同样品类别的拉曼光谱数据进行机器学习,设置训练数据集和检测数据集,其中,训练数据集为收集数据的70%,检测数据集为收集数据的30%;所述K最邻近法(KNN)机器学习算法的参数为:n_neighbors为样品类别数量,algorithm为auto,其他参数为默认值;所述支持向量机(SVM)机器学习算法的参数为:核函数为linear,目标函数的惩罚系数C为1000,其他参数为默认值;所述线性判别降维(LDA)机器学习算法的参数为:n_components为样品类别数量,其他参数为默认值;所述致梯度提升(XGBoost)机器学习算法的参数为:目标函数为multi:softmax,评价指标为merror,其他参数为默认值;(6)模型的选择使用不同模型K最邻近法(KNN)机器学习算法、支持向量机(SVM)机器学习算法、线性判别降维(LDA)机器学习算法、极致梯度提升(XGBoost)机器学习算法对数据训练后,将得到的检测数据集进行预测,根据真实结果和预测结果得到准确率,准确率最高的模型即为最佳模型,采用最佳模型即可实现对于未知样品的快速鉴别,其中准确率的计算是模型预测正确数量所占总量的比例。2.如权利要求1所述的模型,其特征在于,所述环境样品为含有微生物群落的样品。3.根据权利要求2所述的模型,其特征在于,步骤(1)中所述离心的条件为,离心力可为0~100000
×
g,不为0,时间为0~60min,不为0。4.根据权利要求3所述的模型,其特征在于,步骤(2)中的细胞破碎方式包括:超声、研
磨、反复冻融、高压...
【专利技术属性】
技术研发人员:徐蕾,陆震鸣,许正宏,柴丽娟,张晓娟,史劲松,
申请(专利权)人:江南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。