一种基于组合优化的近红外无创血糖检测波长变量筛选方法技术

技术编号:15639989 阅读:59 留言:0更新日期:2017-06-16 03:03
本发明专利技术提供了一种基于组合优化的近红外无创血糖检测波长变量筛选方法,包括以下步骤:首先采用不同波长LED近红外光源获得人体血糖检测的透射率光谱数据,然后结合线性回归建模,以均方根误差为指标,对多个波长变量数据用连续投影算法、遗传算法和逐步选择算法选取各组最优的变量组。再通过加权评分方法对每组变量进行打分,最后将三组变量重新组合,综合得分由高到低依次排序,选取得分最高的前几个变量作为最终辅助变量。本算法针对回归建模当中波长变量过多对模型造成过拟合现象的问题,通过加权组合优化,提取出最有效的波长组合。变量精选可以大大简化模型,减少模型计算复杂度,同时提高其预测能力和无创血糖检测的实时性、鲁棒性。

【技术实现步骤摘要】
一种基于组合优化的近红外无创血糖检测波长变量筛选方法
本专利技术属于近红外光透射法无创血糖检测
,具体涉及了一种组合优化算法用于人体无创血糖检测的近红外光波长变量选择方法。
技术介绍
近年来,随着化学计量学的发展和光学元件设计制造水平的提升,使得近红外(NIR,Nearinfrared)光谱分析技术用于人体血糖的无创检测的理念和实践越来越成熟。通过LED近红外光源透射法建立与人体血糖浓度间的回归模型,可以用于对人体血糖浓度进行预测。工程应用中可供选择的不同波长的LED较多。在NIR结合PLS方法建模中,若采用不同波长的LED光源个数过多,模型计算量很大,且在某些光谱区域,血糖的光谱信息很弱,有的和其它成分吸收谱峰重叠严重,建立的模型很容易产生过拟合现象。所以,通过特定方法筛选特征波长或波长区间有可能得到更好的定量校正模型。波长选择一方面可以简化模型,另一方面由于不相关或非线性变量的剔除,可以得到预测能力强、稳健性好的校正模型。在工程实际应用中,如何从众多近红外LED光源波长变量中筛选出合适的光源,迄今为止还没有一个公认的筛选方法,特别是在人体无创血糖检测近红外光谱中波长选择更是鲜有报道。目前发展出的一些计算方法,主要分为基于阈值的简单判断方法和基于搜索方式确定最佳波长组合的方法。阈值方法主要是以相关系数等作为指标,其适用性不是很高;基于搜索方法一般以选择的波长建立PLS或PCR等线性回归模型的均方根误差(RMSE)作为优化目标函数,常用的搜索方法有逐步选择算法、模拟退火算法、多链方法和遗传算法等,但在实际人体无创血糖测量过程中,由于检测条件和检测方式变化多样,这些搜索方法都存在一定的局限性,很难达到全局最优结果。遗传算法虽然应用非常广泛,但由于NIR的初始群体是随机选取的,叉变异过程也有较强的随机性,每次波长选择的结果不能保证一致,且根据经验,校正集中波长变量与样本数的比值一般要小于4,否则得到的结果是不可靠的;总之通过单一搜索方法选择的波长变量建立的模型其鲁棒性并不是很高,模型需要频繁的校正。
技术实现思路
为了解决上述单一搜索方法选择变量上会陷入局部最优、模型鲁棒性不强的技术问题,本专利技术提供了一种基于加权组合优化方式选择波长变量的方法,该方法以逐步选择算法、连续投影算法和遗传算法为基础,从中筛选出更为合理,鲁棒性更高的波长变量,本专利技术包括如下步骤:步骤1、通过临床试验得到的不同时间段不同浓度的人体血糖值,同时用多个不同波长的LED光源通过非侵入方式获得人体血糖近红外透射率光谱数据;步骤2、然后建立偏最小二乘回归模型,以误差均方根(RMSE)为指标,分别采用连续投影算法、遗传算法和逐步选择算法筛选出各自最优波长变量组,作为初始变量组;步骤3、再对三组变量进行得分评价,将模型复测定系数归一化作为每组间的权值,组内的得分由每个辅助变量对模型的贡献程度t检验来得到,t越大,则该变量得分越高,考虑到组间各变量得分的平衡性,对每组内变量的t检验得分也进行归一化处理;步骤4、对变量得分进行加权,将步骤3得到的组间权值和组内得分进行相乘,若组间变量相同则进行评分累加,最后得到的评分按高低排序;步骤5、选择评分最高的前k个波长变量作为最终辅助变量。与现有技术相比,本专利技术具有以下优点:在近红外LED光透射法用于无创血糖检测中,将过多的波长变量筛选为数量更少的独立变量,不仅降低了模型复杂度和大大提高了计算效率,而且去除了大多冗余信息,能够提高模型预测能力;该方法综合连续投影算法、遗传算法和逐步选择算法三种变量选择算法,以各变量对模型贡献度作为得分指标,模型复测定系数作为权重,加权优化得出最优变量组,能有效克服单一算法的局限性,减少了预测模型需要频繁校正的现象,鲁棒性更强;本专利技术涉及算法稳定、效率高,适用于大规模的变量选择优化问题。附图说明图1为本专利技术提供的基于组合优化的近红外无创血糖检测波长变量筛选方法的流程示意图。图2为本专利技术提供的遗传优化算法示意图。具体实施方式以下结合变量筛选流程图对本专利技术作进一步的详细说明,但本专利技术的保护范围并不局限于此。本专利技术方法的整体流程如图1所示,基于组合优化的近红外无创血糖检测波长变量筛选方法具体的实施步骤如下:步骤一(图1)、数据的获取,通过临床试验获得不同时间段人体血糖浓度值的数据,同时使用多个不同波长的近红外LED光源对手臂或耳垂部位进行扫描,为了测量准确,需要进行多次扫描取平均值,并对数据进行平滑预处理。步骤二(图1、图2)、建立线性回归(如PLSR、PCR等)校正模型;PLSR的基本做法是首先在自变量集中提出第一成分t1(t1是x1、x2、…xm的线性组合,且尽可能多地提取原自变量中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达到最大;然后建立因变量y1、y2、…yp与t1的回归,如果回归方程已达到满意的精度,则算法中止;否则继续对第二成分的提取,直到达到满意的精度为止;若最终对自变量集提取个成分t1、t2、…tr,PLSR将通过建立y1、y2、…yp与t1、t2、…tr的回归式,然后再表示为y1、y2、…yp与原自变量的回归方程式,模型误差均方根表示如下:以RMSE作为评价模型预测效果的优劣的指标。步骤三(图1)、根据步骤二,分别用连续投影算法、遗传算法和逐步回归法对原始光谱数据进行处理,以PLS模型误差均方根为指标,选择各自有效的波长变量组。连续投影算法步骤如下:(1)初始化:n=1(第一次迭代),在光谱矩阵中任选一列向量xj,记为xk(0)(k(0)=j);(2)集合S定义为:,即还没有被选择进波长链的列向量,分别计算xj对S中向量的投影向量(3)记录最大投影的序号(4)将最大的投影作为下轮的投影向量这样得到对波长组合,对每一对xk(0)和N所决定的组合分别建立定标模型,使用预测RMSE来判断所建模型的优劣,选出最小的RMSE,它所对应的xk(0)*和N*即为最佳的波长组合;遗传算法是仿照生物进化和遗传的规律,根据“生存竞争”和“优胜劣汰”的原则,从任一初始群体出发,通过复制、交换、突变等操作,使优胜者繁殖,劣汰者消失,一代一代重复同样的操作,最终使解决问题逼近最优解,将其用于波长变量筛选也是一个比较有效的方法。对群体进行编码,编码方式采用二进制0/1字符编码,对变量数为m的问题,可用一个有m字符的字符串来表示每种变量组合,字符串中的每个字符用0或1表示,0代表对应的变量未被选中,1代表对应的变量选中,算法流程图如图2所示;逐步选择方法的原理是:每一步只引入或剔除一个自变量,自变量是否被引入或剔除则取决于其偏回归平方和的F检验或校正决定系数。如方程中已引入了(m-1)个自变量,在此基础上考虑再引入变量Xj。记引入Xj后方程(即含m个自变量)的回归平方和为SS回归,残差为SS残差;之前含(m-1)个自变量(不包含Xj)方程的回归平方和为SS回归(-j),则Xj的偏回归平方和为U=SS回归-SS回归(-j),检验统计量为:如果Fj>Fa(1,n-m-1)(a为置信度),则Xj选入方程;否则,不入选。从方程中剔除无统计学作用的自变量,过程则相反,但检验一样。步骤四(图1)、经过连续投影算法、遗传算法和逐步回归算法与PLS回归建模结合,分本文档来自技高网
...
一种基于组合优化的近红外无创血糖检测波长变量筛选方法

【技术保护点】
一种基于组合优化的近红外无创血糖检测波长变量筛选方法,其特征在于,包括以下步骤:步骤一:通过临床试验得到的不同时间段不同浓度的人体血糖值,同时用多个不同波长的LED光源通过非侵入方式获得人体血糖近红外透射率光谱数据;步骤二:然后建立偏最小二乘回归模型,以误差均方根(RMSE)为指标,分别采用连续投影算法、遗传算法和逐步选择算法筛选出各自最优波长变量组,作为初始变量组;步骤三:再对三组变量进行得分评价,将模型复测定系数归一化作为每组间的权值,组内的得分由每个辅助变量对模型的贡献程度t检验来得到,t越大,则该变量得分越高,考虑到组间各变量得分的平衡性,对每组内变量的t检验得分也进行归一化处理;步骤四:对变量得分进行加权,将步骤三得到的组间权值和组内得分进行相乘,若组间变量相同则进行评分累加,最后得到的评分按高低排序;步骤五:选择评分最高的前k个波长变量作为最终辅助变量。

【技术特征摘要】
1.一种基于组合优化的近红外无创血糖检测波长变量筛选方法,其特征在于,包括以下步骤:步骤一:通过临床试验得到的不同时间段不同浓度的人体血糖值,同时用多个不同波长的LED光源通过非侵入方式获得人体血糖近红外透射率光谱数据;步骤二:然后建立偏最小二乘回归模型,以误差均方根(RMSE)为指标,分别采用连续投影算法、遗传算法和逐步选择算法筛选出各自最优波长变量组,作为初始变量组;步骤三:再对三组变量进行得分评价,将模型复测定系数归一化作为每组间的权值,组内的得分由每个辅助变量对模型的贡献程度t检验来得到,t越大,则该变量得分越高,考虑到组间各变量得分的平衡性,对每组内变量的t检验得分也进...

【专利技术属性】
技术研发人员:邹凌伟闫东伟邱亚星刘晶李水
申请(专利权)人:北京光巨力信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1