中国老年认知损害预测模型制造技术

技术编号:33291225 阅读:16 留言:0更新日期:2022-05-01 00:10
本发明专利技术公开一种中国老年认知损害预测模型,其基于大样本社区老年人群数据库,通过利用基层医疗机构易获取的信息,最大程度地筛选潜在的预测变量,运用机器筛选和专家经验相结合的方法筛选变量,利用多种机器学习算法,并采用新的线性模型综合多个分类器的结果建立集合模型,并利用外部数据集进行验证,从而构建中国老年认知损害最优预测模型,用以预测认知功能正常的社区老年人未来三年发生认知损害的风险。另外,本发明专利技术在变量选择步骤选择AUC和灵敏度作为评估矩阵,在社区开展认知损害高危人群的识别工作上更具有实践价值。危人群的识别工作上更具有实践价值。危人群的识别工作上更具有实践价值。

【技术实现步骤摘要】
中国老年认知损害预测模型


[0001]本专利技术涉及人工智能领域,具体而言,涉及人工智能算法辅助构建认知损害预测模型,更具体地为一种中国老年认知损害预测模型。

技术介绍

[0002]多数老年痴呆是一个隐匿、长期的发病过程,认知损害是老年痴呆早期的一个重要先兆症状。由于目前尚无药物能治愈老年痴呆,老年痴呆的早期预防至关重要,尽可能多地识别认知损害高危人群是有效预防老年痴呆的关键一步;而有认知损害风险的老人绝大部分生活在社区,在社区层面做好认知损害高危人群的识别和管理对预防和减少痴呆的发生意义重大。有学者研究构建认知损害预测模型,但现有的部分预测模型所纳入的部分预测变量如“MMSE总分”,是需要专业人员进行评估的,且该评估耗时较长,不利于基层医疗机构在日常诊疗工作中开展认知损害高危人群识别工作。此外,现有的部分预测模型采用“MMSE总分”做为结局指标,预测变量中纳入“MMSE总分”很可能存在过度拟合的情况。因此,需要一种能够利用基层医疗机构易获取的信息,构建适宜的认知损害预测模型,为社区开展认知损害高危人群的识别和管理工作提供有力支撑。
[0003]另外,现有技术所采用的认知预测模型是将模型的灵敏度和特异度放在了同等重要的位置,但对于可能存在认知损害的人群来说,“尽可能检出认知损害高危人群”的收益可能高于“将正常人判为认知损害高危人群”所带来的负面影响,亦即提高预测模型的灵敏度比提高预测模型的特异度有更重要的实践意义。

技术实现思路

[0004]为了解决上述问题,本专利技术提供一种中国老年认知损害预测模型,通过利用基层医疗机构易获取的信息,最大程度地筛选潜在的预测变量,运用机器筛选和专家经验相结合的方法筛选变量,利用多种机器学习算法,并采用新的线性模型综合多个分类器的结果建立集合模型,并利用外部数据集进行验证,从而构建中国老年认知损害最优预测模型,用以准确辅助预测认知损害的发生。另外,本专利技术在变量选择步骤选择AUC和灵敏度作为评估矩阵,并整合算法和专家建议方法进行变量选择,在社区开展认知损害高危人群的识别工作上更具有实践价值。
[0005]为达到上述目的,本专利技术提供了一种中国老年认知损害预测模型,其构建过程包括以下步骤:
[0006]步骤S1:根据预设筛选条件从建模数据库中筛选样本组成数据库data01,数据库data01中的目标变量设定为cogsv2g18;
[0007]步骤S2:将目标变量cogsv2g18作为结局变量,其包括0和1两个值,其中,0表示认知维持正常,1表示发生认知损害;然后将目标变量cogsv2g18重新标注为Negative和Positive,其中,Negative代表未确诊为认知受损的受访者,Positive代表确诊为认知受损的受访者;
[0008]步骤S3:对数据库data01中的数据进行清洗,将自身缺失值比例大于10%的变量去除,保留缺失比例不高于10%的变量并生成数据集data01.1,其中缺失值比例=缺失个数/全部个数;
[0009]步骤S4:对于数据集中变量的缺失值,采用MissForest插入混合类型的缺失值,进行五次循环,其中,混合类型包括数字类型和因素类型;
[0010]步骤S5:根据包外误差,选择误差值最小循环填充后的数据集保存为填补结果,得到数据集data01.2;
[0011]步骤S6:对连续变量进行标化处理,对分类变量进行独热编码处理,得到数据集data01.3,用以提高机器学习分类器结果的稳定性和可解释性;
[0012]步骤S7:进行特征选择,具体为分别采用朴素贝叶斯和随机森林算法通过递归减少法选择特征,并对结果进行比对分析,以AUC和灵敏度作为建模特征集的选择依据;
[0013]步骤S8:将选择出来的特征与专家讨论结果,确定模型最终预测变量,得到数据集data01.4;
[0014]步骤S9:对数据集data01.4进行SMOTE处理,得到数据集data1作为训练模型的原始数据,用以解决建模数据库中结局变量分布不均衡的问题;
[0015]步骤S10:分别采用五种机器学习算法建立模型,包括广义线性模型、XGBTree模型、朴素贝叶斯模型、逻辑回归模型及神经网络模型,每种模型均设定5组模型参数进行十折交叉验证训练,根据AUC选出每种机器学习算法所拟合的最佳预测模型,分别是模型m1、m2、m3、m4及m5;
[0016]步骤S11:将模型m1、m2、m3、m4及m5所产生预测结果作为集合模型的输入集,使用广义线性回归模型进行拟合,并采用十折交叉验证,根据AUC得到集合模型所拟合的最佳预测模型m6;
[0017]步骤S12:采用与步骤S3的建模数据库相同的清理方法,对外部验证数据test1进行处理;
[0018]步骤S13:使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测,输出每条记录的预测概率;
[0019]步骤S14:根据预测概率和test1中的目标值,绘制ROC曲线,确定m1~m6在验证数据集中包括AUC、灵敏度、特异度及F1值等模型表现指标,绘制校准图,根据AUC和校准图,选择最优的一个模型作为最终预测模型。
[0020]在本专利技术一实施例中,其中,步骤S1中预设筛选条件为:基线未报告患有痴呆、大于等于65岁、认知功能正常以及3年后随访存活的人,数据库data01包括10033人的样本数据,目标变量cogsv2g18为是否发生认知损害,其包含89个自变量,其中的缺失值用99999代替。
[0021]在本专利技术一实施例中,其中,步骤S4每次循环包括以下步骤:
[0022]步骤S401:按照缺失程度对需要填充的目标变量进行排序,并按照缺失比例由小到大的顺序对变量开始填充;
[0023]步骤S402:对本次需要填充的目标变量以外的其他缺失值,先采用均值/中位数进行填充,再使用MissForest算法对目标变量的缺失值进行预测,用预测值填充该目标变量的缺失值;
[0024]步骤S403:重复步骤S401和步骤S402的算法,完成所有变量缺失值的填充;
[0025]步骤S404:当所有的变量都已经填充过一遍,进入下一次迭代;
[0026]步骤S405:当预测值收敛,即本次迭代与上次迭代的预测值之差小于预设阈值时,停止迭代,完成缺失值的填充。
[0027]在本专利技术一实施例中,其中,在步骤S7中,
[0028]采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:
[0029]采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:
[0030]步骤S711:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量,且每个原始特征设定一个权重值;
[0031]步骤S712:通过朴素贝叶斯算法,以目标变量cogsv2g18作为标签值对数据进行拟合,并重新计算每个特征的权重值,即计算对模型贡献度的程度;
[0032]步骤S713本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中国老年认知损害预测模型,其特征在于,构建过程包括以下步骤:步骤S1:根据预设筛选条件从建模数据库中筛选样本组成数据库data01,数据库data01中的目标变量设定为cogsv2g18;步骤S2:将目标变量cogsv2g18作为结局变量,其包括0和1两个值,其中,0表示认知维持正常,1表示发生认知损害;然后将目标变量cogsv2g18重新标注为Negative和Positive,其中,Negative代表未确诊为认知受损的受访者,Positive代表确诊为认知受损的受访者;步骤S3:对数据库data01中的数据进行清洗,将自身缺失值比例大于10%的变量去除,保留缺失比例不高于10%的变量并生成数据集data01.1,其中缺失值比例=缺失个数/全部个数;步骤S4:对于数据集中变量的缺失值,采用MissForest插入混合类型的缺失值,进行五次循环,其中,混合类型包括数字类型和因素类型;步骤S5:根据包外误差,选择误差值最小循环填充后的数据集保存为填补结果,得到数据集data01.2;步骤S6:对连续变量进行标化处理,对分类变量进行独热编码处理,得到数据集data01.3,用以提高机器学习分类器结果的稳定性和可解释性;步骤S7:进行特征选择,具体为分别采用朴素贝叶斯和随机森林算法通过递归减少法选择特征,并对结果进行比对分析,以AUC和灵敏度作为建模特征集的选择依据;步骤S8:将选择出来的特征与专家讨论结果,确定模型最终预测变量,得到数据集data01.4;步骤S9:对数据集data01.4进行SMOTE处理,得到数据集data1作为训练模型的原始数据,用以解决建模数据库中结局变量分布不均衡的问题;步骤S10:分别采用五种机器学习算法建立模型,包括广义线性模型、XGBTree模型、朴素贝叶斯模型、逻辑回归模型及神经网络模型,每种模型均设定5组模型参数进行十折交叉验证训练,根据AUC选出每种机器学习算法所拟合的最佳预测模型,分别是模型m1、m2、m3、m4及m5;步骤S11:将模型m1、m2、m3、m4及m5所产生预测结果作为集合模型的输入集,使用广义线性回归模型进行拟合,并采用十折交叉验证,根据AUC得到集合模型所拟合的最佳预测模型m6;步骤S12:采用与步骤S3的建模数据库相同的清理方法,对外部验证数据test1进行处理;步骤S13:使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测,输出每条记录的预测概率;步骤S14:根据预测概率和test1中的目标值,绘制ROC曲线,确定m1~m6在验证数据集中包括AUC、灵敏度、特异度及F1值等模型表现指标,绘制校准图,根据AUC和校准图,选择最优的一个模型作为最终预测模型。2.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,步骤S1中预设筛选条件为:基线未报告患有痴呆、大于等于65岁、认知功能正常以及3年后随访存活的人,数据库data01包括10033人的样本数据,目标变量cogsv2g18为是否发生认知损害,其包含89个自变量,其中的缺失值用99999代替。
3.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,步骤S4每次循环包括以下步骤:步骤S401:按照缺失程度对需要填充的目标变量进行排序,并按照缺失比例由小到大的顺序对变量开始填充;步骤S402:对本次需要填充的目标变量以外的其他缺失值,先采用均值/中位数进行填充,再使用MissForest算法对目标变量的缺失值进行预测,用预测值填充该目标变量的缺失值;步骤S403:重复步骤S401和步骤S402的算法,完成所有变量缺失值的填充;步骤S404:当所有的变量都已经填充过一遍,进入下一次迭代;步骤S405:当预测值收敛,即本次迭代与上次迭代的预测值之差小于预设阈值时,停止迭代,完成缺失值的填充。4.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,在步骤S7中,采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:步骤S711:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量,且每个原始特征设定一个权重值;步骤S712:通过朴素贝叶斯算法,以目标变量cogsv2g18作为标签值对数据进行拟合,并重新计算每个特征的权重值,即计算对模型贡献度的程度;步骤S713:将拥有最小绝对值权重的特征从特征集中删除;步骤S714:重复步骤S711~S713,直至剩余的特征数量达到模型AUC最大的特征数量;采用随机森林对模型通过递归减少法选择特征的具体过程为:步骤S72...

【专利技术属性】
技术研发人员:吕晓珍王华丽于欣纪俊于滨于淏岿
申请(专利权)人:北京大学第六医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1