基于随机森林的均匀化样本重构血糖估计方法及系统技术方案

技术编号:32466046 阅读:27 留言:0更新日期:2022-02-26 09:04
本发明专利技术公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明专利技术通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。力。力。

【技术实现步骤摘要】
基于随机森林的均匀化样本重构血糖估计方法及系统


[0001]本专利技术涉及数据处理
,更具体的,涉及一种基于随机森林的均匀化样本重构血糖估计方法、系统及介质。

技术介绍

[0002]糖尿病是危害人类健康的一大杀手,目前已有的有创测血糖技术不仅存在血液感染的风险,而且无法实现在短时间内连续多次进行测量。为了对血糖实现无创连续监测,使用近红外光谱进行无创血糖检测的方法,该方法利用随机森林算法建立回归模型,而现有技术中利用随机森林算法建立回归模型还存在以下缺陷:未对样本数据进行预处理,直接对血糖样本数据进行随机且有放回地抽样,当出现极端血糖值时(血糖突然升高或突然降低),模型会因无法选择到那部分极端样本值去训练而导致准确率急剧下降。针对回归预测方法,当出现极端血糖值时,随机森林不能够做出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过度拟合。
[0003]针对上述问题,为了让训练集尽可能涵盖所有特征信息,我们提出一种基于随机森林的针对血糖估计的样本训练集和测试集划分方法,旨在通过样本选择,将原本处于不均匀分布的样本空间映射为均匀分布的血糖样本空间,从而使得随机森林在随机且有放回地抽中每个血糖样本数据的概率趋于相同,以此提高模型预测的准确率以及模型对增强样本空间分布特性的鲁棒性。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提出了一种基于随机森林的均匀化样本重构血糖估计方法、系统及存储介质。
[0005]本专利技术第一方面提供了一种基于随机森林的均匀化样本重构血糖估计方法,包括:获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
[0006]本方案中,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特征数据为一个维列向量,放在一个的矩阵中,其中,表示样本
数目;所述输出血糖数据为一个维列向量,放在一个的矩阵中,其中,表示样本数量。
[0007]本方案中,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血糖数据直方图划分出等间距的N个基准点;所述基准点之间的间距计算公式为:其中,表示基准点间距,表示直方图中最后一个柱形的中心值,表示直方图中第一个柱形的中心值,表示基准点个数。
[0008]本方案中,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果获取距离最近的一个样本点;根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
[0009]本方案中,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
[0010]本方案中,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
[0011]本专利技术第二方面还提供了一种基于随机森林的均匀化样本重构血糖估计系统,该
系统包括:存储器、处理器,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
[0012]本方案中,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特征数据为一个维列向量,放在一个的矩阵中,其中,表示样本数目;所述输出血糖数据为一个维列向量,放在一个的矩阵中,其中,表示样本数量。
[0013]本方案中,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血糖数据直方图划分出等间距的N个基准点;所述基准点之间的间距计算公式为:其中,表示基准点间距,表示直方图中最后一个柱形的中心值,表示直方图中第一个柱形的中心值,表示基准点个数。
[0014]本方案中,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果获取距离最近的一个样本点;根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
[0015]本方案中,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,包括以下步骤:获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。2.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特征数据为一个维列向量,放在一个的矩阵中,其中,表示样本数目;所述输出血糖数据为一个维列向量,放在一个的矩阵中,其中,表示样本数量。3.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血糖数据直方图划分出等间距的N个基准点;所述基准点之间的间距计算公式为:其中,表示基准点间距,表示直方图中最后一个柱形的中心值,表示直方图中第一个柱形的中心值,表示基准点个数。4.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果获取距离最近的一个样本点;根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。5.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征
在于,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。6.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:将测试集...

【专利技术属性】
技术研发人员:韦怡婷许婕希刘庆凌永权李妙丘梓杰
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1