【技术实现步骤摘要】
一种基于CS-RF的地中海贫血病的风险预警方法
本专利技术涉及一种基于CS-RF的地中海贫血病的风险预警方法,属于数据挖掘预测
技术介绍
地中海贫血病(ThalassemiaDisease,TD)是一种海洋性、珠蛋白基因缺陷且隐性遗传的病,多发于地中海沿岸,在我国云南(10%)、广东等地高发。其中重型的地贫患儿有立即夭折或者六岁前夭折的危险,这对患儿家庭造成了沉重打击。基于CS-RF算法的预警方法可以辅助诊断,有助于降低误诊率、节省医学资源等,进一步指导其后续的诊断及治疗过程。目前,已有骨髓干细胞移植案例,但治后效果欠佳。另外,在地中海贫血的研究方面基本停留在数据的累积分析上,在地中海贫血预警方面的研究更是欠缺。RF算法基于以上的结构加快整个挖掘预警过程。而且算法已经被广泛的应用到商业、网络安全等各个领域,但还没有应用到地中海贫血领域。
技术实现思路
本专利技术要解决的技术问题是提供一种基于CS-RF的地中海贫血病的风险预警方法,将CS-RF算法应用到对地中海贫血病的风险预警上,起到降低医疗资源浪费的作用,提高临床诊断的准确性与高效性。本专利技术的技术方案是 ...
【技术保护点】
1.一种基于CS‑RF的地中海贫血病的风险预警方法,其特征在于:Step1、建立数据库:根据电子台账数据,建立一个受检者记录的数据库,将受检者血样编号作为标识符ID,对应检验记录作为一条样例S,每个样例S包含地中海贫血病受检者的血液及电泳检查结果,对应列为受检属性值集合TZset;Step2、数据预处理:对数据库中的样例数据集进行清洗、挖掘及填充后得到建模数据集DataSet,该数据集包含N条样例,M个特征,将DataSet分为训练数据集TrainData和测试数据集TestData,比例为3:1;Step3、布谷鸟搜索算法进行参数寻优:用布谷鸟搜索算法迭代寻找RF最优参数 ...
【技术特征摘要】
1.一种基于CS-RF的地中海贫血病的风险预警方法,其特征在于:Step1、建立数据库:根据电子台账数据,建立一个受检者记录的数据库,将受检者血样编号作为标识符ID,对应检验记录作为一条样例S,每个样例S包含地中海贫血病受检者的血液及电泳检查结果,对应列为受检属性值集合TZset;Step2、数据预处理:对数据库中的样例数据集进行清洗、挖掘及填充后得到建模数据集DataSet,该数据集包含N条样例,M个特征,将DataSet分为训练数据集TrainData和测试数据集TestData,比例为3:1;Step3、布谷鸟搜索算法进行参数寻优:用布谷鸟搜索算法迭代寻找RF最优参数,作为初始化RF的决策树棵数ntree、分割属性mtry;Step4、首先对数据集TrainData采用随机采样的方法采样,每次随机采样ntree个样本作为单棵决策树的训练数据集TrainSubData;在每个节点,算法首先随机选取mtry(mtry<<M)个变量,从中找出能够提供最佳分割效果的预警属性,即节点分割标准要考虑的变量个数mtry;算法在不剪枝的情况下生成单棵决策树,重复该步骤生成多棵CART决策树ntree,构建优化随机森林CS-RF模型;Step5、风险评估:将每棵决策树得到的分类结果采用轮盘赌法投票,算法取类别预测众数作为最终风险分类表,并得出对不同程度地中海贫血病影响较大的因子,得到因子重要性排序;Step6、模型预警:将新数据TestData输入到CS-RF预警模型进行预测,得到一个地中海贫血病的分类结果的混淆矩阵Conf_Matrix,并根据该混淆矩阵Conf_Matrix计算模型性能。2.根据权利要求1所述的基于CS-RF的地中海贫血病的风险预警方法,其特征在于:所述步骤Step1中,受检者记录数据库中每条信息包含受检者血常规检验结果字段,受检者血样编号作为标识符ID,对应血常规及电泳检验集合的编号作为属性集TZset,检验中的每一个属性作为一个项。3.根据权利要求1所述的基于CS-RF的地中海贫血病的风险预警方法,其特征在于:所述步骤Step2中,数据预处理包括电子台帐数据采集、数据挖掘及特征选择;所述数据挖掘是将获得的数据库数据经过数据清洗、数据转换以及贝叶斯算法初步填充等,得到最终的建模数据集DataSet,数据集包含N条样例,M个特征。4.根据权利要...
【专利技术属性】
技术研发人员:宋耀莲,刘艳菲,王慧东,徐文林,武双新,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。