基于集成学习算法的人体成分预测方法及系统技术方案

技术编号:18446997 阅读:24 留言:0更新日期:2018-07-14 11:13
本发明专利技术提出一种基于集成学习算法的人体成分预测方法及系统,该方法包括以下步骤:S1:采集若干人体参数,选取与人体成分相关系数较高的人体参数及其中一种或几种的运算项作为自变量,将待预测的人体成分作为因变量;S2:根据所述自变量及因变量确定的原始样本数据,通过集成学习算法进行建模S3:根据所述人体成分预测模型确定的自变量采集测试对象的人体参数作为测试样本数据,通过所述人体成分预测模型对测试对象的成分进行预测。解决因模型各自变量之间存在严重的共线性、以及样本数据相对较少而导致的模型预测准确度差甚至无法计算的问题。

【技术实现步骤摘要】
基于集成学习算法的人体成分预测方法及系统
本专利技术涉及人体成分预测
,尤其涉及的是一种基于集成学习算法的人体成分预测方法及系统。
技术介绍
人体成分测量是当今医疗健康检测领域不可缺少的重要手段。通过对人体的正常成分范围监控,能对科学锻炼、合理健身和减肥等做出有效指导。对人体成分的测定方法主要有:水下称重法、双能X射线吸收法、近红外线测试法、CT断层扫描法、空气替代法、核磁共振法、同位素稀释法、超声波法、脂溶性气体测定法、代谢产物测量法、生物电阻抗分析法等。其中,生物电阻抗分析法(BIA)因其无创、无辐射、设备比较简单、成本低廉、可连续使用、不要求特殊使用环境等鲜明特点而受到广泛关注。目前的生物电阻抗分析法多采用多元线性回归的方法,假设测试者身高、体重、年龄以及人体电阻抗等与人体成分之间的关系是线性的,利用大量人体数据进行建模。该模型虽然简单,但是由于各人体参数之间存在严重的多重共线性(比如身高、体重、年龄间存在千丝万缕的联系),导致预测精度较差。此外,由于采集人体成分样本数据的代价较高,使得通常用于普通多元线性回归的样本数过少,从而导致生成模型精度不高,甚至在样本数少于模型特征数时无法计算。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于集成学习算法的人体成分预测方法及系统,解决因模型各自变量之间存在严重的共线性、以及样本数据相对较少而导致的模型预测准确度差甚至无法计算的问题。为解决上述问题,本专利技术提出一种基于集成学习算法的人体成分预测方法,包括以下步骤:S1:采集若干人体参数,选取与人体成分相关系数较高的人体参数及其中一种或几种的运算项作为自变量,将待预测的人体成分作为因变量;S2:根据所述自变量及因变量确定的原始样本数据,通过集成学习算法进行建模,包括步骤S21-S24:S21:根据所述自变量及因变量确定的原始样本数据,采用偏最小二乘法进行建模,得到第一模型参数;S22:根据所述自变量及因变量确定的原始样本数据,采用逐步回归算法进行建模,得到第二模型参数;S23:根据所述自变量及因变量确定的原始样本数据,采用支持向量机回归算法进行建模,得到第三模型参数;S24:根据三种不同算法的估计标准误差大小及得到的模型参数,用加权平均的方法生成人体成分预测模型:其中,B为第一模型参数,R为第二模型参数,W为第三模型参数,SEEPLSR为偏最小二乘法建模模型的估计标准误差,SEESR为逐步回归算法建模模型的估计标准误差,SEESVR为支持向量机回归算法建模模型的估计标准误差;S3:根据所述人体成分预测模型确定的自变量采集测试对象的人体参数作为测试样本数据,通过所述人体成分预测模型对测试对象的成分进行预测。根据本专利技术的一个实施例,所述步骤S21包括:S211:设原始样本数据的样本数为n,自变量表示为X=[x1,x2,...,xk]n×k,xi为列向量,k为其一个样本的特征数,因变量表示为Y=[y1;y2;...;yn]n×1;S212:先对原始样本数据进行标准化处理,j=1,2,...,k;其中,xij表示自变量X中第i个样本的第j个特征值,yi表示因变量Y中第i个样本;是xj的均值,是xj的方差;是y的均值,sy是y的方差;令初始的主成分数量m=1,处理后的数据为S213:计算的最大特征值对应的单位特征向量pm,及对应的第m主成分为S214:计算在第m主成分下的回归系数分别为:S215:计算在第m主成分下的残差分别为:S216:将残差Em作为新的残差Fm作为新的S217:检查残差Fm的精度,若精度达到要求,或者主成分数量m已经达到初始X的秩,执行下一步;否则,赋值m=m+1,循环步骤S213~S216,对残差矩阵进行新一轮的成分提取和回归分析;S218:得到标准化数据回归方程其中,第一模型参数B为预测方程系数向量,包含k个值;M为循环的次数,也即最终的主成分数量;S219:计算样本因变量与回归值之间的估计标准误差为根据本专利技术的一个实施例,所述步骤S22包括:S221:设原始样本数据的样本数为n,自变量表示为X=[x1,x2,...,xk]n×k,xi为列向量,k为其一个样本的特征数,因变量表示为Y=[y1;y2;...;yn]n×1;S222:先对原始样本数据进行标准化处理,j=1,2,...,k;其中,xij表示自变量X中第i个样本的第j个特征值,yi表示因变量Y中第i个样本;是xj的均值,是xj的方差;是y的均值,sy是y的方差;处理后的数据分别为为列向量,S223:针对k个自变量X*,分别拟合它与因变量的简单线性回归模型,得到共k个简单线性回归模型;S224:对各个自变量进行偏F检验,将偏F检验的P值小于α的自变量判定为具有统计学意义,将偏F检验P值最小且有统计学意义的自变量引入模型,如果所有模型均无统计学意义,则运算过程终止;S225:再分别拟合引入模型外的其他自变量的线性回归模型,同样将偏F检验P值最小且有统计学意义的自变量引入模型,执行下一步,如果没有具有统计学意义的自变量,则运算过程终止,跳入步骤S228;S226:在每次将新的自变量引入模型后,判断之前引入模型的自变量是否仍有统计学意义,若没有统计学意义,则将其剔除出模型;S227:判断剩余的模型外的自变量是否有统计学意义,如果有则返回至步骤S225,直至模型外的自变量均无统计学意义,而模型内的自变量均有统计学意义,执行下一步;S228:保留被剔除的自变量的拟合系数,并设置其为0,此时标准化数据回归方程其中第二模型参数R=[r1,r2,...,rk]T;,R为预测方程系数向量,包含k个值;S229:计算样本因变量与回归值之间的估计标准误差为根据本专利技术的一个实施例,所述步骤S23包括:S231:设原始样本数据的样本数为n,自变量表示为X=[x1,x2,...,xk]n×k,xi为列向量,k为其一个样本的特征数,因变量表示为Y=[y1;y2;...;yn]n×1;S232:先对原始样本数据进行标准化处理,其中,xij表示自变量X中第i个样本的第j个特征值,yi表示因变量Y中第i个样本;是xj的均值,是xj的方差;是y的均值,sy是y的方差;对处理后的数据重新表示,自变量为行向量,因变量S233:用线性回归函数f(x*)=x*W+b拟合数据确定待求解的优化问题如下:其中,常数C>0、ε>0,§i、为松弛变量;S234:引入拉格朗日乘子求解对偶问题,得:其中,ai、为拉格朗日乘子,由于数据做了标准化处理,所以b=0,标准化数据回归方程其中第三模型参数W=[w1,w2,...,wk]T,W为预测方程系数向量,包含k个值;计算样本因变量与回归值之间的估计标准误差为根据本专利技术的一个实施例,所述步骤S3包括:S31:设测试对象的样本数为h,自变量表示为X′=[x′1,x′2,...,x′k]h×k,x′i为列向量,k为其特征数;S32:先对测试样本数据进行标准化处理,标准化后的自变量为S33:标准化预测变量并将计算结果逆标准化得到各个样本对应的成分预测值,其中,第i个样本的成分预测值为中第i个样本值;sy、K均为训练所得的人体成分预测模型的参数。根据本专利技术的一个实施例,所述人体参数包括:身高、体重、年龄、性别、多个电流频率下的全身及节段阻抗和本文档来自技高网...

【技术保护点】
1.一种基于集成学习算法的人体成分预测方法,其特征在于,包括以下步骤:S1:采集若干人体参数,选取与人体成分相关系数较高的人体参数及其中一种或几种的运算项作为自变量,将待预测的人体成分作为因变量;S2:根据所述自变量及因变量确定的原始样本数据,通过集成学习算法进行建模,包括步骤S21‑S24:S21:根据所述自变量及因变量确定的原始样本数据,采用偏最小二乘法进行建模,得到第一模型参数;S22:根据所述自变量及因变量确定的原始样本数据,采用逐步回归算法进行建模,得到第二模型参数;S23:根据所述自变量及因变量确定的原始样本数据,采用支持向量机回归算法进行建模,得到第三模型参数;S24:根据三种不同算法的估计标准误差大小及得到的模型参数,用加权平均的方法生成人体成分预测模型:

【技术特征摘要】
1.一种基于集成学习算法的人体成分预测方法,其特征在于,包括以下步骤:S1:采集若干人体参数,选取与人体成分相关系数较高的人体参数及其中一种或几种的运算项作为自变量,将待预测的人体成分作为因变量;S2:根据所述自变量及因变量确定的原始样本数据,通过集成学习算法进行建模,包括步骤S21-S24:S21:根据所述自变量及因变量确定的原始样本数据,采用偏最小二乘法进行建模,得到第一模型参数;S22:根据所述自变量及因变量确定的原始样本数据,采用逐步回归算法进行建模,得到第二模型参数;S23:根据所述自变量及因变量确定的原始样本数据,采用支持向量机回归算法进行建模,得到第三模型参数;S24:根据三种不同算法的估计标准误差大小及得到的模型参数,用加权平均的方法生成人体成分预测模型:其中,B为第一模型参数,R为第二模型参数,W为第三模型参数,SEEPLSR为偏最小二乘法建模模型的估计标准误差,SEESR为逐步回归算法建模模型的估计标准误差,SEESVR为支持向量机回归算法建模模型的估计标准误差;S3:根据所述人体成分预测模型确定的自变量采集测试对象的人体参数作为测试样本数据,通过所述人体成分预测模型对测试对象的成分进行预测。2.如权利要求1所述的基于集成学习算法的人体成分预测方法,其特征在于,所述步骤S21包括:S211:设原始样本数据的样本数为n,自变量表示为X=[x1,x2,…,xk]n×k,xi为列向量,k为其一个样本的特征数,因变量表示为Y=[y1;y2;…;yn]n×1;S212:先对原始样本数据进行标准化处理,其中,xij表示自变量X中第i个样本的第j个特征值,yi表示因变量Y中第i个样本;是xj的均值,是xj的方差;是y的均值,sy是y的方差;令初始的主成分数量m=1,处理后的数据为S213:计算的最大特征值对应的单位特征向量pm,及对应的第m主成分为S214:计算在第m主成分下的回归系数分别为:S215:计算在第m主成分下的残差分别为:S216:将残差Em作为新的残差Fm作为新的S217:检查残差Fm的精度,若精度达到要求,或者主成分数量m已经达到初始X的秩,执行下一步;否则,赋值m=m+1,循环步骤S213~S216,对残差矩阵进行新一轮的成分提取和回归分析;S218:得到标准化数据回归方程其中,第一模型参数B为预测方程系数向量,包含k个值;M为循环的次数,也即最终的主成分数量;S219:计算样本因变量与回归值之间的估计标准误差为3.如权利要求1所述的基于集成学习算法的人体成分预测方法,其特征在于,所述步骤S22包括:S221:设原始样本数据的样本数为n,自变量表示为X=[x1,x2,…,xk]n×k,xi为列向量,k为其一个样本的特征数,因变量表示为Y=[y1;y2;…;yn]n×1;S222:先对原始样本数据进行标准化处理,其中,xij表示自变量X中第i个样本的第j个特征值,yi表示因变量Y中第i个样本;是xj的均值,是xj的方差;是y的均值,sy是y的方差;处理后的数据分别为为列向量,S223:针对k个自变量X*,分别拟合它与因变量的简单线性回归模型,得到共k个简单线性回归模型;S224:对各个自变量进行偏F检验,将偏F检验的P值小于α的自变量判定为具有统计学意义,将偏F检验P值最小且有统计学意义的自变量引入模型,如果所有模型均无统计学意义,则运算过程终止;S225:再分别拟合引入模型外的其他自变量的线性回归模型,同样将偏F检验P值最小且有统计学意义的自变量引入模型,执行下一步,如果没有具有统计学意义的自变量,则运算过程终止,跳入步骤S228;S226:在每次将新的自变量引入模型后,判断之前引入模型的自变量是否仍有统计学意义,若没有统计学意义,则将其剔除出模型;S227:判断剩余的模型外的自变量是否有统计学意义,如果有则返回至步骤S225,直至模型外的自变量均无统计学意义,而模型内的自变量均有统计学意义,执行下一步;S228:保留被剔除的自变量的拟合系数,并设置其为0,此时标准化数据回归方程其中第二模型参数R=[r1...

【专利技术属性】
技术研发人员:李楚元
申请(专利权)人:一诺仪器中国有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1