一种基于改进DBSCAN的核磁谱图基准线提取方法技术

技术编号:34799172 阅读:22 留言:0更新日期:2022-09-03 20:05
本发明专利技术请求保护一种基于改进DBSCAN的核磁谱图基准线提取方法,属于核磁共振技术领域。根据核磁共振频谱仪提取出的润滑油核磁数据特征,对DBSCAN算法的核心参数Eps进行改进,并使用改进后的DBSCAN算法将处理后的数据进行聚类,根据聚类结果获取该实验的最优离群点个数,利用该离群点的坐标设置该图谱的基准线。通过该方法提取的基准线避免了传统人工设置基准线的不足,为后续润滑油添加剂的成分检测提供可靠的数据支撑。测提供可靠的数据支撑。测提供可靠的数据支撑。

【技术实现步骤摘要】
一种基于改进DBSCAN的核磁谱图基准线提取方法


[0001]本专利技术属于核磁共振
,特别是一种基于改进DBSCAN的核磁谱图基准线提取方法。

技术介绍

[0002]核磁共振波谱是来源于原子核能量间的跃迁,即用一定射频的电磁波对样品进行照射,使特定结构环境中的原子核发生共振跃迁,记录发生核磁共振时的信号峰和强度得到核磁共振波谱。如今,通常将核磁共振谱图信息(峰的化学位移,峰的强度,峰的宽度以及峰的高度等)应用在分子结构上对物质结构的解析。在谱图基础上,对物质结构的分析过程中发现造成分析结果误差的绝大部分原因是基准线设置不准确。图谱基准线的误差会使得图谱中峰强度计算不准确,从而降低物质检测的准确性,因此基于核磁谱图实现在分子结构上对物质进行解析的关键之一就是准确设置核磁谱图的基准线。
[0003]目前光谱中常用的基准线设置方法主要有:自动迭代移动平均值法,小波变换,惩罚最小二乘法,移动窗口平滑法等等。通过阅读大量文献,发现基于核磁谱图的基准线选取方法相继出现,但都存在一定的限制。因此本专利技术从机器学习的角度出发,提出一种基于DBSCAN的核磁谱图基准线提取方法,该方法结合核磁谱图的数据特征与DBSCAN算法的聚类思想,对预处理后的核磁数据进行聚类,并根据聚类结果提取基准线,最终实验结果与人工选取的基准线和特征峰大致符合。
[0004]申请公开号CN104458785B,一种核磁共振波谱谱峰对齐及谱峰提取方法,读取各个核磁共振谱图;利用具有内标化合物的谱峰或者预定化合物的特征谱峰对各个核磁共振谱图进行初步校准;将预定选取的核磁共振谱图作为参考谱图并划分为若干个固定区间,在各个固定区间内对待校准的核磁共振谱图进行校准;将每个核磁共振谱图在各个固定区间内校正后谱图进行整合。在该方法中,需要对核磁共振谱图进行多次校准,且该方法涉及多次对比删除操作,其操作流程相当复杂。本专利技术中对核磁图谱基准线的提取方法侧重于对数据的处理,只需要提取出该谱图的峰顶点坐标,利用改进后的DBSCAN算法进行聚类即可得到该基准线值和特征峰个数,其流程和思想均容易理解。

技术实现思路

[0005]本专利技术旨在解决以上现有技术的问题。提出了一种基于改进DBSCAN的核磁谱图基准线提取方法,避免了传统人工设置基准线的不足,为后续润滑油添加剂的成分检测提供可靠的数据支撑。
[0006]本专利技术的技术方案如下:
[0007]一种基于改进DBSCAN的核磁谱图基准线提取方法,其包括以下步骤:
[0008]步骤1:将核磁共振频谱仪中提取出的核磁数据进行预处理,即保留谱图中每个峰的顶点坐标,剔除其他无用的坐标点;
[0009]步骤2:求出数据集中各个顶点坐标之间的距离,得出该数据集的距离分布矩阵;
[0010]步骤3:把距离分布矩阵中的数据从小到大排列,将距离升序曲线图中曲线的拐点作为DBSCAN基于密度的噪声应用空间聚类核心参数Eps邻域半径的初始值;
[0011]步骤4:对DBSCAN的参数Eps进行改进,其改进主要在于为Eps设置一个误差允许范围[minPeak,2eps

minPeak],其中minPeak为最小峰值,eps为步骤3中获得的拐点,将该Eps进行区间划分;
[0012]步骤5:分别将步骤4中得到的各个区间的端点值作为邻域半径Eps,并选取minPts进行聚类;
[0013]步骤6:若聚类结果的离群点个数在某几个连续区间内稳定不变,则该离群点个数为最优离群点个数,并根据该离群点坐标设置基准线区间。
[0014]进一步的,求出数据集中各个顶点坐标之间的距离,得出该数据集的距离分布矩阵Dist
n*n
,具体包括:
[0015]Dist
n*n
={dist(i,j)|1≤i≤n,1≤j≤n}
ꢀꢀꢀ
(1)
[0016]dist(i,j)表示点i到j之间的距离,n表示数据集中点的总个数,Dist
n*n
表示由dist(i,j)构成的实对称矩阵,矩阵中每一行的数据由小到大排列。
[0017]进一步的,所述步骤3:把距离分布矩阵中的数据从小到大排列,将距离升序曲线图中的曲线拐点作为DBSCAN核心参数Eps的初始值;
[0018]从曲线增长率来看,增长率缓慢说明该范围内数据密度较大,而曲线增长率快则表明该范围内数据分布较为稀疏,该Eps的选择方式符合DBSCAN算法根据数据之间的距离划分簇的思想。
[0019]进一步的,所述步骤4中DBSCAN算法的步骤为:本专利技术在k

dist选取Eps的基础上,为Eps设置一个误差允许范围,该范围的最小值为图谱中最小峰值,最大值为两倍Eps与最小峰值的差。也即该Eps的改进在于将k

dist与区域划分相结合,全面考虑该Eps的所有可能取值。
[0020]进一步的,所述步骤5中minPts的选取具体为:由于minPts的选取直接影响聚类的质量,minPts值过大,会将原本不属于同一簇的数据归类为同一簇,部分离群点也会因此不能识别出来;minPts值过小,会将原本属于同一簇的数据划分为多个簇,部分核心点或边界点也会被识别为离群点;经过对大量样品进行反复实验,将minPts设置在[7,10]之间。
[0021]本专利技术的优点及有益效果如下:
[0022]本专利技术借助机器学习领域的DBSCAN算法实现对核磁图谱基准线的提取。基于图谱中每个峰的顶点坐标提取基准线符合DBSCAN算法中基于密度进行聚类的思想。本专利技术通过k

dist与区域划分相结合对该算法的核心参数Eps设置进行改进,实验所得的离群点对应该核磁谱图的特征峰。经大量实验验证,该方法设置的基准线可以快速准确的提取特征峰的信息,避免了人工选取基准线效率较低以及在手工记录过程中出现的错峰,遗漏峰的问题。
附图说明
[0023]图1是本专利技术提供优选实施例的原始数据,横坐标

ppm,纵坐标

hz;
[0024]图2为本专利技术具体实例处理后提取出的峰顶点数据,横坐标

ppm,纵坐标

hz。
[0025]图3为本专利技术具体实例距离升序曲线图,横坐标

点的个数,纵坐标

距离。
[0026]图4为本专利技术具体实例DBSCAN聚类的实验结果图,横坐标

ppm,纵坐标

hz。
[0027]图5为本专利技术基于改进DBSCAN的核磁谱图基准线提取方法流程图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。
[0029]本专利技术解决上述技术问题的技术方案是:
[0030]如图5所示,一种基于改进DB本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进DBSCAN的核磁谱图基准线提取方法,其特征在于,包括以下步骤:步骤1:对核磁共振频谱仪中提取出的核磁数据进行预处理,即保留谱图中每个峰的顶点坐标,剔除其他无用的坐标点;步骤2:求出数据集中各个顶点坐标之间的距离,得出该数据集的距离分布矩阵;步骤3:把距离分布矩阵中的数据从小到大排列,将距离升序曲线图中曲线的拐点作为DBSCAN基于密度的噪声应用空间聚类核心参数Eps邻域半径的初始值;步骤4:对DBSCAN的参数Eps进行改进,其改进主要在于为Eps设置一个误差允许范围[minPeak,2eps

minPeak],其中minPeak为最小峰值,eps为步骤3中获得的拐点,将该Eps进行区间划分;步骤5:分别将步骤4中得到的各个区间的端点值作为邻域半径Eps,并选取minPts进行聚类;步骤6:若聚类结果的离群点个数在某几个连续区间内稳定不变,则该离群点个数为最优离群点个数,并根据该离群点坐标设置基准线区间。2.根据权利要求一种基于改进DBSCAN的核磁谱图基准线提取方法,其特征在于,所述步骤2:求出数据集中各个顶点坐标之间的距离,得出该数据集的距离分布矩阵Dist
n*n
,具体包括:Dist
n*n
={dist(i,j)|1≤i≤n,1≤j≤n}
ꢀꢀꢀꢀꢀꢀꢀ
(1)dist(i,j)表示点i到j之间的距离,n表示数据集中点的总个数,Dist
...

【专利技术属性】
技术研发人员:朱富丽熊仕勇周渝陇杜伟奇叶晓静吴挺
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1