【技术实现步骤摘要】
一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统
本专利技术属于数据挖掘和机器学习
,特别涉及一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统。
技术介绍
青少年儿童近视预测是基于儿童眼科队列数据进行的数据分析,由于此数据是前瞻性人群队列数据,数据涉及儿童在小学时期的每一年的事例调查数据,实务中,除了小学一年级的数据较为完整外,其余各年级的数据都缺失比较严重,丧失了大量可用的数据信息,在队列数据方面,还未见有效的和完整的数据缺失值填补方法。而现有的医学数据研究中,大多采用均值,众数,多位数等数据填补方法,但是并不适用于儿童的眼部数据填补,因为屈光度数据是儿童散瞳后的视力检测数据,属于客观数据,使用常规方法进行填补没有实际意义,且效果也不够理想。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统,该填补方法的特点是引入机器学习中的渐进梯度回归树方法(GBRT)对缺失的屈光度数据进行填补,使得填 ...
【技术保护点】
1.一种青少年儿童近视预测系统的缺失值填补方法,其特征在于,包括:/n步骤1、填补眼科数据中的非屈光度数据;/n步骤2、筛选一年级屈光度数据样本和二年级屈光度未缺失的数据样本;/n步骤3、将二年级屈光度作为要拟合的标签数据,从一年级屈光度数据中选取特征,得到特征子集;/n步骤4、利用机器学习方法构建回归模型进行拟合;/n步骤5、选取拟合效果最佳的机器学习模型;/n步骤6、将二年级屈光度缺失的数据样本输入模型,用预测值进行填补得到二年级的完整屈光度数据;/n步骤7、依此类推,利用当前年级的屈光度数据填补下一年级的屈光度数据。/n
【技术特征摘要】
1.一种青少年儿童近视预测系统的缺失值填补方法,其特征在于,包括:
步骤1、填补眼科数据中的非屈光度数据;
步骤2、筛选一年级屈光度数据样本和二年级屈光度未缺失的数据样本;
步骤3、将二年级屈光度作为要拟合的标签数据,从一年级屈光度数据中选取特征,得到特征子集;
步骤4、利用机器学习方法构建回归模型进行拟合;
步骤5、选取拟合效果最佳的机器学习模型;
步骤6、将二年级屈光度缺失的数据样本输入模型,用预测值进行填补得到二年级的完整屈光度数据;
步骤7、依此类推,利用当前年级的屈光度数据填补下一年级的屈光度数据。
2.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法,其特征在于,所述步骤1中,非屈光度数据分为连续变量数据和分类变量数据,对于连续变量数据,使用中位数或平均数进行填补,对于分类变量数据,采用众数进行填补。
3.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法,其特征在于,所述步骤2,所述一年级屈光度数据样本作为完整的基线数据,不需要填补。
4.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法,其特征在于,所述步骤3,基于单因素和多因素分析方法进行数据相关分析,并进行特征选取,具体步骤如下:
(1)利用单因素分析方法计算每个特征和因变量的相关系数和p值;
(2)根据统计得到的p值,选取p值小于显著性水平的特征,构建初步的特征子集;
(3)根据单因素分析初步构建的特征子集,使用多元线性回归方法建立多因素回归模型,得到回归模型参数表;
(4)根据参数表中的p值统计量,再一次筛选出回归模型中具有显著统计学意义的特征,得到进一步筛选出的特征子集。
5.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法,其特征在于,所述步骤4中,采用渐进梯度回归树方法(GBRT)构建模型进行拟合,具体方法如下:
(1)将数据集分为缺失数据集和非缺失数据集两部分,缺失数据集为需要填补的数据集,非缺失数据集为用于训练回归模型的数据集;
(2)设定非缺失数据集为D,将D按划分系数p和1-p的比例划分成训练集Dtrain和测试集Dtest,划分系数p的取值范围为0-1;
(3)将训练集Dtrain中的数据输入,利用GBRT方法构建回归模型;
(4)使用测试集Dtest测试回归模型,得到输出...
【专利技术属性】
技术研发人员:杨旭,徐扬,翟益松,赵晋锋,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。