一种对非酒精性脂肪肝风险的分析预测方法及系统技术方案

技术编号:35072546 阅读:20 留言:0更新日期:2022-09-28 11:35
本发明专利技术提供一种对非酒精性脂肪肝风险的分析预测方法及系统,从电子病历的信息系统中调取多个用户的特征数据,形成数据集;对特征数据进行归一化处理,再将数据集划分为训练数据集、测试数据集和原始验证数据集;使用MRMR模块和ETC模块中的基尼重要性对数据集进行特征选择;利用预设的机器学习算法训练并预测经过特征选择后的特征数据,判断特征数据所对应的用户是否患有NAFLD。通过使用患者数据集以及通过使用更全面的特征选择过程来识别用户的统计数据、身体和血统特征,实现对非酒精性脂肪肝风险的分析预测,删除了可能影响机器学习模型准确性和鲁棒性的错误数据,提高了预测的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种对非酒精性脂肪肝风险的分析预测方法及系统


[0001]本专利技术涉及脂肪肝预测
,尤其涉及一种对非酒精性脂肪肝风险的分析预测方法及系统。

技术介绍

[0002]非酒精性脂肪性肝病(NAFLD)正在成为一种全球疾病负担。NAFLD的特征是在没有大量饮酒的情况下,脂肪细胞超过肝脏重量的5%。NAFLD是一个总称,包括肝脏发生炎症的单纯性脂肪变性和非酒精性脂肪性肝炎(NASH)。通常情况下,NAFLD会经历简单的脂肪变性、NASH、纤维化、肝硬化,最后是肝细胞癌的阶段。单纯性脂肪变性患者的进展风险较低,因此早期诊断NAFLD有利于预防疾病进展甚至逆转疾病。
[0003]由于患者缺乏症状,NAFLD的早期筛查一直具有挑战性。而侵入性手术受到其成本、取样误差和手术相关并发症的阻碍。或者,已经实施了侵入性较小的程序,例如血液生物标志物(血清转氨酶水平和特定细胞因子作为细胞凋亡的标志物)和成像测试(超声、计算机断层扫描和磁共振成像),但与肝活检相比,这些方法并不可靠。因此,最近的注意力集中在使用替代生物标志物筛查NAFLD的机器学习模型的开发上——脂肪肝指数(FLI)、肝脂肪变性指数(HIS)和NAFLD肝脂肪评分(NAFLD

LFS),以及浙江大学指数(ZJU),取得了可喜的成果。然而,这些模型受到其传统统计技术的限制,这些技术在有效解释非线性关系和变量

变量相互作用的能力方面受到限制,并且它们依赖于在人类生物系统中可能不正确的假设。

技术实现思路

[0004]本专利技术提供一种对非酒精性脂肪肝风险的分析预测方法,避免了机器学习算法模型受到其传统统计技术的限制,提升了分析预测的准确性。
[0005]对非酒精性脂肪肝风险的分析预测方法包括:
[0006]步骤一、从电子病历的信息系统中调取多个用户的特征数据,形成数据集;
[0007]步骤二、对特征数据进行归一化处理,再将数据集划分为训练数据集、测试数据集和原始验证数据集;
[0008]步骤三、使用MRMR模块和ETC模块中的基尼重要性对数据集进行特征选择;
[0009]步骤四、利用预设的机器学习算法训练并预测经过特征选择后的特征数据,判断特征数据所对应的用户是否患有NAFLD。
[0010]进一步需要说明的是,步骤一还包括:设置用户特征数据的筛选条件,筛选条件为:
[0011]血压限制在20到300毫米汞柱之间;
[0012]身高限制为100至210厘米;
[0013]体重限制为20至200公斤。
[0014]进一步需要说明的是,步骤二中,使用z

score方法对所有特征数据进行归一化处
理:
[0015][0016]其中x是样本,μ是总体均值,σ是总体标准差。
[0017]进一步需要说明的是,步骤二中,将数据集中的80%的特征数据划分为训练数据集,用于训练模型;
[0018]将数据集中的10%的特征数据划分为测试数据集,用于训练期间的内部模型
[0019]测试将数据集中的10%的特征数据划分为原始验证数据集,用于完成训练后的模型外部验证。
[0020]进一步需要说明的是,步骤三中,配置两个数据集;
[0021]使用MRMR模块对其中一个数据集进行预处理,记录数据集中的前20个特征;
[0022]使用ETC模块对其中一个数据集进行预处理,记录数据集中的前20个特征;
[0023]其中,MRMR模块中的顶级特征按MIQ分数排名;ETC模块中的顶级特征根据基尼重要性进行排名;
[0024]将MRMR模块和ETC模块预处理后的特征和数据集中的所有特征数据放在一起;
[0025]将排名前20个特征,列入附录中。
[0026]进一步需要说明的是,步骤三还包括:从数据集选择中获得的前5个、前10个和前15个特征进行了训练;
[0027]为了查看准确率与特征数量的总体趋势,对1到20之间的所有特征进行模型训练。
[0028]进一步需要说明的是,在步骤四中,在训练数据集上执行机器学习训练过程,并在测试数据集上进行了验证;
[0029]训练过程中,在得到一个模型时,训练和测试数据集就会重新组合,并拆分成新的训练和测试数据集;
[0030]拆分方式为训练数据集占整个数据集大小的80%,测试数据集占整个数据集的10%;
[0031]重组进行50次以获得50个不同的模型;
[0032]针对验证数据集对50个模型进行准确性测试,评估并记录准确度指标。
[0033]进一步需要说明的是,在步骤四还包括:准确度分数计算方式,
[0034]准确度分数方式为:
[0035][0036]其中TP=真阳性,TN=真阴性,FP=假阳性和FN=假阴性;
[0037]接收者操作特征ROC曲线的曲线下面积AUC得分为:通过在各种阈值设置下绘制真阳性率TPR与假阳性率FPR的关系,测量二元分类器系统的诊断能力;
[0038]ROC是概率曲线,AUC代表可分离程度;
[0039]F1分数为:Precision和Recall的调和均值,衡量模型在正面和负面情况下的分类能力;F1的计算方式为:
[0040][0041]然后将所有结果放在一起进行比较,以根据准确度指标确定性能满足预设要求的机器学习算法;
[0042]使用性能满足预设要求的机器学习算法模型的SHAP值进行特征重要性分析。
[0043]进一步需要说明的是,利用预设的机器学习算法包括:高斯朴素贝叶斯GNB算法、逻辑回归LR算法、随机森林RF算法、极端梯度提升决策树XGB算法、支持向量机SVM算法、多层感知器MLP算法以及LASSO集成算法。
[0044]本专利技术还提供一种对非酒精性脂肪肝风险的分析预测系统,系统包括:特征获取模块、数据预处理模块、特征选择模块以及机器学习预测模块;
[0045]特征获取模块用于从电子病历的信息系统中调取多个用户的特征数据,形成数据集;
[0046]数据预处理模块用于对特征数据进行归一化处理,再将数据集划分为训练数据集、测试数据集和原始验证数据集;
[0047]特征选择模块用于使用MRMR模块和ETC模块中的基尼重要性对数据集进行特征选择;
[0048]机器学习预测模块用于利用预设的机器学习算法训练并预测经过特征选择后的特征数据,判断特征数据所对应的用户是否患有NAFLD。
[0049]从以上技术方案可以看出,本专利技术具有以下优点:
[0050]本专利技术提供的对非酒精性脂肪肝风险的分析预测方法使用各种机器学习技术预测NAFLD的风险并研究其性能。将使用来自健康检查中心(比如人口数量N=81,552)的人口统计数据、物理数据和血液生物标志物综合面板构建预测模型,以预测NAFLD的诊断并量化该模型的准确性在数据集的独立部分上建模。本专利技术将使用最大相关性最大冗余本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对非酒精性脂肪肝风险的分析预测方法,其特征在于,方法包括:步骤一、从电子病历的信息系统中调取多个用户的特征数据,形成数据集;步骤二、对特征数据进行归一化处理,再将数据集划分为训练数据集、测试数据集和原始验证数据集;步骤三、使用MRMR模块和ETC模块中的基尼重要性对数据集进行特征选择;步骤四、利用预设的机器学习算法训练并预测经过特征选择后的特征数据,判断特征数据所对应的用户是否患有NAFLD。2.根据权利要求1所述的对非酒精性脂肪肝风险的分析预测方法,其特征在于,步骤一还包括:设置用户特征数据的筛选条件,筛选条件为:血压限制在20到300毫米汞柱之间;身高限制为100至210厘米;体重限制为20至200公斤。3.根据权利要求1所述的对非酒精性脂肪肝风险的分析预测方法,其特征在于,步骤二中,使用z

score方法对所有特征数据进行归一化处理:其中x是样本,μ是总体均值,σ是总体标准差。4.根据权利要求1所述的对非酒精性脂肪肝风险的分析预测方法,其特征在于,步骤二中,将数据集中的80%的特征数据划分为训练数据集,用于训练模型;将数据集中的10%的特征数据划分为测试数据集,用于训练期间的内部模型测试将数据集中的10%的特征数据划分为原始验证数据集,用于完成训练后的模型外部验证。5.根据权利要求1所述的对非酒精性脂肪肝风险的分析预测方法,其特征在于,步骤三中,配置两个数据集;使用MRMR模块对其中一个数据集进行预处理,记录数据集中的前20个特征;使用ETC模块对其中一个数据集进行预处理,记录数据集中的前20个特征;其中,MRMR模块中的顶级特征按MIQ分数排名;ETC模块中的顶级特征根据基尼重要性进行排名;将MRMR模块和ETC模块预处理后的特征和数据集中的所有特征数据放在一起;将排名前20个特征,列入附录中。6.根据权利要求5所述的对非酒精性脂肪肝风险的分析预测方法,其特征在于,步骤三还包括:从数据集选择中获得的前5个、前10个和前15个特征进行了训练;为了查看准确率与特征数量的总体趋势,对1到20之间的所有特征进行模型训练。7.根据权利要求6所述的对非酒精性脂肪肝风险的分析预测方法,其特征...

【专利技术属性】
技术研发人员:周卫红李康陈亚
申请(专利权)人:江苏亚寰软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1