病历数据的分类方法及系统技术方案

技术编号:21479107 阅读:36 留言:0更新日期:2019-06-29 05:08
本发明专利技术实施例提供了一种病历数据的分类方法及系统,对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;然后,将特征选择后的数据集随机分为指定数量个大小相同的数据块,将各数据块分为训练集和测试集后,分别输入到对应的分类器中;随后,基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;最后,将最优分类器数量输入至深度级联森林模型中,深度级联森林模型进行逐次运行直至满足预设精度,获得病历数据的最优分类结果。本发明专利技术实施例的技术方案对数据量的要求不高,且易于训练,还具有适应性强的优点。

【技术实现步骤摘要】
病历数据的分类方法及系统
本专利技术涉及计算机
,尤其涉及一种病历数据的分类方法及系统。
技术介绍
病历数据通常是一个较为复杂的数据集合,鉴于患者生理参数和疾病症状的复杂性,以及医院医生之间经验的差异性,病历数据分类的准确率往往不是很高。随着科技的发展,机器学习方法在医学数据的处理中扮演着越来越重要的角色。如果能够快速提供一种CAD(ComputerAidedDiagnosis,计算机辅助诊断)应用,可以对疾病的病历数据进行学习与分类,可以在一定程度上改善疾病的分类和预测的准确性。
技术实现思路
有鉴于此,本专利技术实施例提供了一种病历数据的分类方法及系统。第一方面,本专利技术实施例提供了一种病历数据的分类方法,包括:对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中;基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;将所述最优分类器数量输入至深度级联森林模型中,深度级本文档来自技高网...

【技术保护点】
1.一种病历数据的分类方法,其特征在于,所述方法包括:对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中;基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;将所述最优分类器数量输入至深度级联森林模型中,深度级联森林模型进行逐次运行直至满足预设精度,获得病历数据的最优分类结果。

【技术特征摘要】
1.一种病历数据的分类方法,其特征在于,所述方法包括:对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中;基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;将所述最优分类器数量输入至深度级联森林模型中,深度级联森林模型进行逐次运行直至满足预设精度,获得病历数据的最优分类结果。2.根据权利要求1所述的方法,其特征在于,所述数据集的特征选择,具体包括:通过XGBoost模型获得数据集的各特征的特征权重,选取符合预设特征权重条件的特征。3.根据权利要求1所述的方法,其特征在于,将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中,具体包括:通过k-fold交叉验证将特征选择后的所述数据集随机分为k个大小相同的数据块,其中k-1个数据块作为训练集,其余数据块作为测试集,分别输入到对应的分类器中。4.根据权利要求3所述的方法,其特征在于,基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量,具体包括:基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,其中,分类器i的投票权重ni为分类器i的数量,m为分类器的种类总数,运行TPE算法k次,通过k次交叉验证选择验证误差最小时的分类器数量为最优分类器数量。5.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员:顾东晓李童童江政王晓玉梁昌勇李兴国杨雪洁钟金宏杨颖陆文星蒋丽赵树平徐健吴勇
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1