生物样本分类方法、装置和存储介质制造方法及图纸

技术编号:35149625 阅读:15 留言:0更新日期:2022-10-05 10:27
本申请公开了一种生物样本分类方法、装置和存储介质,涉及光谱检测技术领域,所述方法包括:对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。解决了现有技术中分类准确率较低的问题,达到了可以通过具有差异的拉曼特征峰面积作为训练集,进而更全面的反应生物样本的光谱特征,避免分类效果受成分以及拉曼特征峰偏移的影响,提高了样本分类准确率的效果。提高了样本分类准确率的效果。提高了样本分类准确率的效果。

【技术实现步骤摘要】
生物样本分类方法、装置和存储介质


[0001]本专利技术涉及一种生物样本分类方法、装置和存储介质,属于光谱检测


技术介绍

[0002]拉曼光谱作为一种高灵敏度的指纹光谱,现已被广泛地应用于环境检测、食品安全和生命科学等多个领域中液、固和气相物质的检测研究。支持向量机(Support Vector Machine,SVM)是一种基于机器学习的多变量分类器,能够根据算法中几个关键参数的选择来绘制不同复杂度的类边界以达到对样本进行分类的目的。以生命科学领域为例,基于拉曼光谱和SVM构建的克罗恩病患者与健康对照组(HC)预测分类模型可以区分克罗恩病患者和HC的整体代谢变化,帮助临床医生诊断克罗恩病患者和监测疾病进展与复发情况。
[0003]现有方案中,基于拉曼光谱和PCA(principal components analysis,PCA)

SVM构建疾病预测分类模型。其中,PCA是一种常见的数据分析方式,常用于高维数据的降维,用于提取数据的主要特征分量,即用较少的指标代替和反映原始指标的主要信息。现有方案中在获取生物样本的拉曼光谱后,通过PCA对拉曼光谱数据进行降维,提取拉曼光谱数据中的主要信息,再构建SVM分类模型预测后续的生物样本拉曼光谱。
[0004]上述方法中的降维与分类以拉曼光谱中数个单独特征拉曼峰的强度作为依据,适合检测组分较为简单的物质。而由于尿液、血液和生物组织等生物样本成分极其复杂,拉曼峰位会因为各类原因而产生轻微偏移,使用该方法会影响预测分类模型的分类效果,也即上述预测分类模型的分类准确率较低。

技术实现思路

[0005]本专利技术的目的在于提供一种生物样本分类方法、装置和存储介质,用于解决现有技术中存在的问题。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]根据第一方面,本专利技术实施例提供了一种生物样本分类方法,所述方法包括:
[0008]对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;
[0009]基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;
[0010]获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;
[0011]根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。
[0012]可选地,所述确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位,包括:
[0013]对于每个平均拉曼光谱,根据所述平均拉曼光谱中的各个拉曼特征峰位峰强的中位值和/或均值检测所述拉曼特征峰位是否具有差异;
[0014]存储检测到的具有差异的拉曼特征峰位。
[0015]可选地,所述获取每个具有差异的拉曼特征峰位的拉曼特征峰面积,包括:
[0016]确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;
[0017]根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。
[0018]可选地,所述确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据,包括:
[0019]将每个具有差异的拉曼特征峰位中,拉曼特征峰以及所述拉曼特征峰左右N个数据点,确定为所述拉曼特征峰位的拉曼特征峰散点数据,N为大于1的整数。
[0020]可选地,所述根据各个拉曼特征峰散点数据生成拉曼特征峰面积,包括:
[0021]根据所述各个拉曼特征峰散点数据进行曲线拟合;
[0022]通过积分算法计算拟合后的曲线所围成的面积,将计算得到的面积作为所述拉曼特征峰面积。
[0023]可选地,所述根据生成的各个拉曼特征峰面积训练分类预测网络,包括:
[0024]将各个拉曼特征峰面积输入至初始支持向量机SVM模型中,通过最优参数搜索方法确定所述初始SVM模型的惩罚系数和核系数,将训练后的SVM模型确定为所述分类预测网络。
[0025]第二方面,提供了一种生物样本分类方法,所述方法包括:
[0026]获取目标生物样本的目标平均拉曼光谱;
[0027]获取所述目标平均拉曼光谱中具有差异的拉曼特征峰位;所述具有差异的拉曼特征峰位为预先根据统计学方法确定并存储的峰位;
[0028]获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;
[0029]将获取到的所述拉曼特征峰面积输入至分类预测网络,得到所述目标生物样本的分类;所述分类预测网络为通过权利要求1至6任一所述的训练方法训练得到的网络。
[0030]可选地,所述获取每个具有差异的拉曼特征峰位的拉曼特征峰面积,包括:
[0031]确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;
[0032]根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。
[0033]第三方面,提供了一种生物样本分类装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如第一方面或者第二方面所述的方法。
[0034]第四方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如第一方面或者第二方面所述的方法。
[0035]通过对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。解决了现有技术中分类准确率较低的问题,达到了可以通过具有差异的拉曼特征峰面积作为训练集,进而更全面的反应生物样本的光谱特征,避免分类效果受成分以及拉曼特征峰偏移的影响,提高了样本分类准确率的效果。
[0036]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。
附图说明
[0037]图1为本专利技术一个实施例提供的生物样本分类方法的方法流程图;
[0038]图2为本专利技术一个实施例提供的根据平均拉曼光谱获取具有差异的拉曼特征峰位的拉曼特征峰面积的一种可能示意图;
[0039]图3为本专利技术一个实施例提供的生物样本分类方法的方法流程图。
具体实施方式
[0040]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生物样本分类方法,其特征在于,所述方法包括:对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。2.根据权利要求1所述的方法,其特征在于,所述确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位,包括:对于每个平均拉曼光谱,根据所述平均拉曼光谱中的各个拉曼特征峰位峰强中位值和/或均值检测所述拉曼特征峰位是否具有差异;存储检测到的具有差异的拉曼特征峰位。3.根据权利要求1所述的方法,其特征在于,所述获取每个具有差异的拉曼特征峰位的拉曼特征峰面积,包括:确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。4.根据权利要求3所述的方法,其特征在于,所述确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据,包括:将每个具有差异的拉曼特征峰位中,拉曼特征峰以及所述拉曼特征峰左右N个数据点,确定为所述拉曼特征峰位的拉曼特征峰散点数据,N为大于1的整数。5.根据权利要求3所述的方法,其特征在于,所述根据各个拉曼特征峰散点数据生成拉曼特征峰面积,包括:根据所述各个拉曼特征峰散点数据进行曲线拟合;通过积分算法计算拟合后的曲线所围成的面积,将计算得到的面积...

【专利技术属性】
技术研发人员:杨荟楠刘致元王晓蕾杜鹏郑雨晴李思龙程蕊赵天楠雷思阳刘逸隆
申请(专利权)人:上海理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1