当前位置: 首页 > 专利查询>王雁专利>正文

一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法技术

技术编号:20179493 阅读:40 留言:0更新日期:2019-01-23 01:15
本发明专利技术提供一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法,包括如下步骤:采集眼科病人的角膜检查数据,由眼科专家为每个角膜样本标注一个类别标签圆锥角膜、疑似圆锥角膜、正常角膜,作为训练样本数据;对角膜样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间;采用XGBoost对样本数据进行特征扩建,将扩建后的特征集作为样本的训练特征;基于样本数据的训练特征,训练构建SVM诊断模型;使用诊断模型对新病例进行诊断预测。试验表明,该方法的诊断效果已满足临床应用。使用该方法对圆锥角膜、尤其是疑似圆锥角膜的筛查,可减少对医学专家诊断的依赖,并基本可以提升诊断效率、准确率。

A Method of Diagnosing Keratoconus Cases Based on XGBoost+SVM Mixed Machine Learning

The invention provides a method for diagnosing keratoconus cases based on XGBoost+SVM hybrid machine learning, which includes the following steps: collecting corneal examination data of ophthalmic patients, labeling each corneal sample with a class label keratoconus, suspected keratoconus and normal cornea as training sample data by ophthalmologist, and characterizing each feature of corneal sample data respectively. Value normalization is used to map the data between intervals [0,1]; XGBoost is used to expand the feature set of the sample data, and the expanded feature set is used as the training feature of the sample; SVM diagnostic model is built based on the training feature of the sample data; and diagnostic model is used to diagnose and predict new cases. Experiments show that the diagnostic effect of this method has satisfied the clinical application. Using this method to screen keratoconus, especially suspected keratoconus, can reduce the dependence on the diagnosis of medical experts, and basically improve the diagnostic efficiency and accuracy.

【技术实现步骤摘要】
一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法
本专利技术属于眼科医疗诊断领域,涉及机器学习技术,尤其是一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病症的方法。
技术介绍
圆锥角膜(keratoconus)是一种以角膜扩张为特征,致角膜中央或旁中央区向前凸出呈圆锥形及产生高度不规则近视散光和不同视力损害的原发性角膜变性疾病,其可以是一种独立的疾病,也可以是多种综合征的组成部分。其多发生于青春期前后,不伴有炎症。晚期会出现急性角膜水肿,形成瘢痕,视力严重受损。明显的圆锥角膜易于确诊。当外观及裂隙灯所见不典型时,早期诊断较困难。最有效的方法为角膜地形图检查。但即便如此,早期圆锥角膜的诊断标准并未完全统一,对于相对复杂的疑似圆锥角膜病例多需由经验丰富的专家进行详细会诊讨论才能给予相对准确的诊断;同时大量的病例、有限的专家、复杂的角膜参数都给圆锥角膜的早期诊增加了很大的难度。因此圆锥角膜的早期筛查已成为亟待解决的关键问题。本专利技术中涉及到的极值梯度提升模型(XGBoost)算法是现今工业上应用最多的机器学习模型之一,其基分类器可以从决策树(gbtree)和线性(gblinear)核函数中任意选择。XGBoost内部包含大量的决策回归树,使用残差来提升模型,并且加入了正则化以防止过拟合,保证模型的鲁棒性。本专利技术首先使用训练样本训练XGBoost模型来扩充新特征,其方法为:基于XGBoost迭代产生的决策树的结构特征,可以记录每条训练样本数据在各决策树叶子结点中的位置,依此对该训练样本进行One-Hot编码,将其作为该训练数据的新特征,实现对训练数据的特征扩充。由于One-Hot编码产生的新特征能较好的描述众多弱分类器(XGBoost迭代产生的决策树)对该样本的分类决策,因此,这些扩充的新特征将有助于提升样本的类别区分度,即提升训练样本的预测价值,进而提升预测模型的精准度。基于样本扩充后的特征,本专利技术采用当下流行的支持向量机方法(SVM)训练构建诊断模型,SVM在解决小样本、高维特征模式识别问题中表现出许多特有的优势,其最终的目标函数将由少数的支持向量所决定,并不取决于样本空间的维数,某种程度上避免了维数灾难,而且具有较好的鲁棒性和预测效率。在诊断临床早期圆锥角膜(疑似圆锥角膜)及圆锥角膜病例的应用上,本专利技术通过使用极值梯度提升模型(XGBoost)模型对原始样本的特征进行扩充,并结合支持向量机(SVM)预测模型进行筛查诊断,拥有较好的临床效果,能够有效辅助眼科医师,对临床病况做出高效且精准的诊断。
技术实现思路
本专利技术提供一种基于机器学习诊断圆锥角膜病例的方法,进行圆锥角膜、疑似圆锥角膜、及正常角膜的判定,为眼科医师临床诊断提供可靠的辅助工具。实现本专利技术目的的技术方案为:步骤1:采集眼科病人的角膜检查数据,由眼科专家为每个角膜样本标注一个类别标签(圆锥角膜、疑似圆锥角膜、正常角膜),作为训练样本数据;步骤2:对角膜样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间;步骤3:采用极值梯度提升模型(XGBoost)对样本数据进行特征扩建,将扩建后的特征集作为样本的训练特征,具体步骤如下:步骤3.1:基于样本数据由XGBoost训练构建N棵梯度提升树,即XGBoost模型迭代次数设置为N;步骤3.2:将每个训练样本在N棵梯度提升树中的位置分别进行1、0编码(又称One-Hot编码,其中1用于记录样本位置,0用于表示样本缺省位置),并将生成的N组One-Hot编码,作为新特征,并入样本原特征中;步骤4:基于样本数据的训练特征,训练构建支持向量机(SVM)诊断模型;步骤5:使用诊断模型对新病例进行诊断预测,将新病例判定为圆锥角膜、疑似圆锥角膜、或正常角膜,具体步骤如下:步骤5.1:对新病例样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间;步骤5.2:用已构建的极值梯度提升模型(XGBoost)对归一化的新病例样本进行特征扩建,即将新样本映射(Map)到已构建好的N棵梯度提升树上,记录该样本在N棵梯度提升树上位置,然后采用One-Hot编码,对新病例样本进行特征扩建;步骤5.3:将新病例样本扩建后的特征输入已构建的SVM诊断模型,判定其标签为圆锥角膜、疑似圆锥角膜、或正常角膜。优选地,步骤2所述,对角膜样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间,具体公式如下:其中,x为原始特征值,xmax为该类别特征最大值,xmin为该类别特征最小值,x*为该特征归一化后的取值。本专利技术的优点和有益效果1、本专利技术提出的一种基于机器学习诊断圆锥角膜病例的方法,通过分析大量已标注的角膜检测病例样本,提出使用XGBoost+SVM混合机器学习预测模型,识别圆锥角膜、疑似圆锥角膜、及正常角膜的方法。2、本专利技术采用XGBoost方法对角膜病例样本的原始特征进行扩充,并进行One-Hot编码,获得对样本区分度较高的新特征,提高了样本原始非线性特征的分类性能。3、试验表明,该方法的诊断效果已满足临床应用。使用该方法对圆锥角膜、尤其是疑似圆锥角膜的筛查,可减少对医学专家诊断的依赖,并基本可以提升诊断效率、准确率。附图说明图1为本专利技术方法的流程图;图2为极值梯度提升决策树(XGBoost)的One-Hot编码。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。该方法包括以下步骤:步骤1:采集眼科病人的角膜检查数据,由眼科专家为每个角膜样本标注一个类别标签(圆锥角膜、疑似圆锥角膜、正常角膜),作为训练样本数据;步骤2:对角膜样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间,具体公式如下:其中,x为原始特征值,xmax为此类特征的最大值,xmin为此类特征的最小值,x*为归一化后的值。步骤3:采用极值梯度提升模型(XGBoost)对样本数据进行特征扩建,具体步骤如下:步骤3.1:通过求解极小化的目标函数obj(1),初始化第一棵分类回归树f1(xi):其中,xi为第i个训练样本,yi为xi对应的标签值,N样本数量,L为损失函数softmax,Ω(f1(xi))为决策树f1(xi)的正则化项。步骤3.2:通过求解极小化的目标函数obj(t),获得第t棵分类回归树ft(xi):其中,obj(t)第t轮次的目标函数,Ij表示分类回归树的第j个叶子中的样本集合,表示第i个样本目标函数的一阶导,表示第i个样本目标函数的二阶导;j为分类回归树的叶子节点的索引值,t为所训练回归树的所属轮数,γ、λ为惩罚力度,T为叶子个数。步骤3.3:迭代执行步骤3.2共200次,依次获得分类回归树ft(xi),t=2,3,4,...,200,并记录各个样本在每棵树中的节点位置。其中,构建XGBoost分类器涉及到的参数包括:学习率设置为0.1,树的最大深度设置为3,最小叶子节点样本权重和设置为1,节本文档来自技高网
...

【技术保护点】
1.一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法,其特征在于:包括如下步骤:步骤1:采集眼科病人的角膜检查数据,由眼科专家为每个角膜样本标注一个类别标签,分别为圆锥角膜、疑似圆锥角膜、正常角膜,作为训练样本数据;步骤2:对角膜样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间;步骤3:采用XGBoost对样本数据进行特征扩建,将扩建后的特征集作为样本的训练特征;步骤4:基于样本数据的训练特征,训练构建SVM诊断模型;步骤5:使用诊断模型对新病例进行诊断预测,将新病例判定为圆锥角膜、疑似圆锥角膜、或正常角膜。

【技术特征摘要】
1.一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法,其特征在于:包括如下步骤:步骤1:采集眼科病人的角膜检查数据,由眼科专家为每个角膜样本标注一个类别标签,分别为圆锥角膜、疑似圆锥角膜、正常角膜,作为训练样本数据;步骤2:对角膜样本数据的各类特征分别进行特征值归一化处理,使其映射到区间[0,1]之间;步骤3:采用XGBoost对样本数据进行特征扩建,将扩建后的特征集作为样本的训练特征;步骤4:基于样本数据的训练特征,训练构建SVM诊断模型;步骤5:使用诊断模型对新病例进行诊断预测,将新病例判定为圆锥角膜、疑似圆锥角膜、或正常角膜。2.根据权利要求1所述的基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法,其特征在于:步骤2归一化处理的具体公式如下:其中:x为原始特征值,xmax为该类别特征最大值,xmin为该类别特征最小值,x*为该特征归一化后的取值。3.根据权利要求1所述的基于XGBoost+SVM混合...

【专利技术属性】
技术研发人员:张琳季书帆王雁徐佳慧王书航裴乐琪崔彤
申请(专利权)人:王雁季书帆
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1