【技术实现步骤摘要】
病历数据的分类方法及系统
本专利技术涉及计算机
,尤其涉及一种病历数据的分类方法及系统。
技术介绍
病历数据通常是一个较为复杂的数据集合,鉴于患者生理参数和疾病症状的复杂性,以及医院医生之间经验的差异性,病历数据分类的准确率往往不是很高。随着科技的发展,机器学习方法在医学数据的处理中扮演着越来越重要的角色。如果能够快速提供一种CAD(ComputerAidedDiagnosis,计算机辅助诊断)应用,可以对疾病的病历数据进行学习与分类,可以在一定程度上改善疾病的分类和预测的准确性。
技术实现思路
有鉴于此,本专利技术实施例提供了一种病历数据的分类方法及系统。第一方面,本专利技术实施例提供了一种病历数据的分类方法,包括:对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中;基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;将所述最优分类器数量输入至深度级 ...
【技术保护点】
1.一种病历数据的分类方法,其特征在于,所述方法包括:对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中;基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;将所述最优分类器数量输入至深度级联森林模型中,深度级联森林模型进行逐次运行直至满足预设精度,获得病历数据的最优分类结果。
【技术特征摘要】
1.一种病历数据的分类方法,其特征在于,所述方法包括:对原始的病历数据进行预处理,得出能够与分类器匹配的数据集;将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中;基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量;将所述最优分类器数量输入至深度级联森林模型中,深度级联森林模型进行逐次运行直至满足预设精度,获得病历数据的最优分类结果。2.根据权利要求1所述的方法,其特征在于,所述数据集的特征选择,具体包括:通过XGBoost模型获得数据集的各特征的特征权重,选取符合预设特征权重条件的特征。3.根据权利要求1所述的方法,其特征在于,将特征选择后的所述数据集随机分为指定数量个大小相同的数据块,将各所述数据块分为训练集和测试集后,分别输入到对应的分类器中,具体包括:通过k-fold交叉验证将特征选择后的所述数据集随机分为k个大小相同的数据块,其中k-1个数据块作为训练集,其余数据块作为测试集,分别输入到对应的分类器中。4.根据权利要求3所述的方法,其特征在于,基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,在运行指定次数的TPE算法后,选择验证误差最小时的分类器数量为最优分类器数量,具体包括:基于TPE算法,对全部分类器通过加权投票表决的方式进行预测,其中,分类器i的投票权重ni为分类器i的数量,m为分类器的种类总数,运行TPE算法k次,通过k次交叉验证选择验证误差最小时的分类器数量为最优分类器数量。5.根据权利要求4所述的方法...
【专利技术属性】
技术研发人员:顾东晓,李童童,江政,王晓玉,梁昌勇,李兴国,杨雪洁,钟金宏,杨颖,陆文星,蒋丽,赵树平,徐健,吴勇,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。