当前位置: 首页 > 专利查询>扬州大学专利>正文

基于病历的甲状腺疾病数据集分类模型的构建方法、分类装置及计算机可读介质制造方法及图纸

技术编号:38826515 阅读:20 留言:0更新日期:2023-09-15 20:05
本发明专利技术公开了医疗设备领域一种基于病历的甲状腺疾病数据集分类模型的构建方法,包括以下步骤:1)收集一定数量的甲状腺疾病患者的病历数据;2)从病历内容、现病史和体检结果中提取特征,形成特征向量表示每份病历;3)进行数据预处理,包括数据清洗、缺失值处理、特征归一化;4)将预处理后的特征向量作为输入,采取支持向量机算法、决策树算法、逻辑回归算法和随机森林算法为基分类器,建立集成模型,然后与其构成的单个分类器结果做横向对比;5)分别使用训练集和测试集对每个分类模型进行训练和评估,选择预测结果正确率最高的模型,本发明专利技术提高了疾病分类的准确性和可靠性。明提高了疾病分类的准确性和可靠性。明提高了疾病分类的准确性和可靠性。

【技术实现步骤摘要】
基于病历的甲状腺疾病数据集分类模型的构建方法、分类装置及计算机可读介质


[0001]本专利技术涉及医疗设备领域,特别涉及一种疾病数据集分类模型的构建方法。

技术介绍

[0002]在现代医疗系统中,疾病分类一直是医学领域中的重要挑战之一。在医疗过程中,准确地判断病情是治疗患者的前提和关键,而随着现代医疗技术的不断发展,医疗数据量的急剧增加,使得医学上的疾病数据集分类更具挑战性。面对大量的病例和复杂的病情,医生的判断结果可能会存在误差和主观性,从而影响了医疗质量。
[0003]近年来,随着人工智能和机器学习技术的发展,医学领域也开始利用这些新技术来提高疾病数据集分类的准确性和效率。信息技术的迅猛发展为医疗行业带来了新的机会。当前,种类繁多的医疗技术已广泛地应用于药物挖掘、医学影像、疾病分类等各个领域。随着科学技术的进步,机器学习在疾病分类领域中的应用将会越来越广泛、越来越重要。机器学习中的集成学习算法则是提高分类器准确率的一种有效途径,已经在很多领域显示出它优于单个分类器的良好性能。机器学习技术可以从数据中学习模式和规律,从而为医生提供更准确的疾病数据集分类结果。同时,随着医疗数据的不断积累和数字化,机器学习技术在医学领域中的应用前景越来越广阔。
[0004]而在众多疾病当中,对于甲状腺疾病的研究少之又少,甲状腺疾病相对又有鲜明而规律的疾病特征。因此将异构模式的集成学习应用于甲状腺疾病分类领域是十分合适的。
[0005]在现有的机器学习技术中,多标签分类是一种重要的技术手段,可以用于识别多个可能的疾病,并根据病情描述和体检内容等特征进行排序。同时,异构集成学习方法可以有效地将多个不同的分类算法进行组合,提高预测的准确性和可靠性。
[0006]虽然现有技术提供了一些基于机器学习的疾病数据集分类方法,但是仍存在一些问题。例如,现有的方法通常只能对单个疾病进行分类,难以应对多疾病的情况;同时,现有的方法通常仅仅基于某一个或某几个分类算法进行预测,难以提高分类的准确性和可靠性。因此,采用机器学习方法对疾病分类进行辅助,可以有效提高诊分类的准确性和可靠性。
[0007]目前,对于医学影像的自动分析已经得到了广泛的应用,比如基于深度学习的计算机辅助分类系统在图像分类、疾病检测、病变分割等方面取得了显著的成果。但是,在医学疾病分类方面,由于病历的内容涉及到医生的文字叙述,其表达形式存在更大的不确定性和多样性,因此疾病分类的自动化处理相对更为困难。
[0008]当前的一些研究主要采用深度学习的方法来解决这个问题,比如将病历中的文字信息转化为向量表示,然后利用深度神经网络对病历进行分类,但这种方法需要大量的标注数据进行训练,而且由于病历的多样性和复杂性,对训练数据的要求很高,而且可能会存在过拟合等问题。

技术实现思路

[0009]本专利技术的目的是提供一种基于病历的甲状腺疾病数据集分类模型的构建方法,针对
技术介绍
中的问题,将医院的病历作为模型输入的一个样本,通过特征提取和数据预处理,将多标签分类问题转化为多个二分类问题,并采用多种机器学习算法进行训练和融合,最终得到一个可靠的疾病分类模型,从而提高了疾病分类的准确性和可靠性。
[0010]本专利技术的目的是这样实现的:一种基于病历的甲状腺疾病数据集分类模型的构建方法,包括以下步骤:
[0011]步骤1)收集一定数量的甲状腺疾病患者的病历数据;
[0012]步骤2)从病历内容、现病史和体检结果中提取特征,形成特征向量表示每份病历;
[0013]步骤3)进行数据预处理,包括数据清洗、缺失值处理、特征归一化;
[0014]步骤4)将预处理后的特征向量作为输入,采取支持向量机算法、决策树算法、逻辑回归算法和随机森林算法为基分类器,建立集成模型,然后与其构成的单个分类器结果做横向对比;
[0015]步骤5)分别使用训练集和测试集对每个分类模型进行训练和评估,选择预测结果正确率最高的模型。
[0016]作为本专利技术的进一步限定,步骤2)中特征提取可以具体包括:
[0017]步骤2

1)根据病历内容和关键词匹配方法,提取与甲状腺疾病相关的关键特征;
[0018]步骤2

2)使用自然语言处理技术,用词袋模型将病历内容转化为数值特征;
[0019]步骤2

3)结合现病史和体检结果,提取与甲状腺疾病相关的数值特征。
[0020]作为本专利技术的进一步限定,在步骤3中数据预处理具体包括:
[0021]步骤3

1)进行数据清洗,包括处理缺失值、异常值和噪声数据;
[0022]步骤3

2)特征归一化,使用标准化方法将不同特征的值缩放到统一的范围;
[0023]步骤3

3)特征选择,根据相关性分析、特征重要性评估和基于模型的特征选择方法,选择与甲状腺疾病分类具有显著相关性,特征与甲状腺疾病的分类结果之间存在一定程度的关联并对甲状腺疾病分类具有高贡献度的特征子集。
[0024]作为本专利技术的进一步限定,在步骤4中构建多个分类模型具体包括:
[0025]步骤4

1)使用支持向量机算法,通过调整核函数和正则化参数进行模型训练:
[0026]步骤4

2)使用决策树算法,通过选择最佳分裂特征和树的深度进行模型训练;
[0027]步骤4

3)使用逻辑回归算法,通过最大似然估计进行模型训练;
[0028]步骤4

4)使用随机森林算法,通过构建多个决策树并进行投票决策进行模型训练。
[0029]作为本专利技术的进一步限定,所述步骤4

1)具体包括:
[0030]步骤4
‑1‑
1)选择高斯核函数以及正则化参数;
[0031]步骤4
‑1‑
2)基于训练数据集,通过最大间隔分类原则寻找一个超平面,将数据集分为不同的类别;
[0032]步骤4
‑1‑
3)通过凸优化方法确定超平面的位置和形状,使其能够区分不同的类别;
[0033]步骤4
‑1‑
4)根据训练数据集的特征向量和类别标签,建立支持向量机分类模型。
[0034]作为本专利技术的进一步限定,所述步骤4

2)具体包括:
[0035]步骤4
‑2‑
1)基于训练数据集的特征和类别标签,构建决策树模型;
[0036]步骤4
‑2‑
2)选择一个能够最有效区分不同甲状腺类别的特征作为最佳的分裂特征,使得在该特征的取值上能够最好地区分不同的类别;
[0037]步骤4
‑2‑
3)递归地进行分裂操作,直到达到预定的数据集最大深度;
[0038]步骤4
‑2‑
4)通过决策树的学习过程,形成一个可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于病历的甲状腺疾病数据集分类模型的构建方法,其特征在于,包括以下步骤:步骤1)收集一定数量的甲状腺疾病患者的病历数据;步骤2)从病历内容、现病史和体检结果中提取特征,形成特征向量表示每份病历;步骤3)进行数据预处理,包括数据清洗、缺失值处理、特征归一化;步骤4)将预处理后的特征向量作为输入,采取支持向量机算法、决策树算法、逻辑回归算法和随机森林算法为基分类器,建立集成模型,然后与其构成的单个分类器结果做横向对比;步骤5)分别使用训练集和测试集对每个分类模型进行训练和评估,选择预测结果正确率最高的模型。2.根据权利要求1所述的基于病历的甲状腺疾病数据集分类模型的构建方法,其特征在于,步骤2)中特征提取可以具体包括:步骤2

1)根据病历内容和关键词匹配方法,提取与甲状腺疾病相关的关键特征;步骤2

2)使用自然语言处理技术,用词袋模型将病历内容转化为数值特征;步骤2

3)结合现病史和体检结果,提取与甲状腺疾病相关的数值特征。3.根据权利要求1或2所述的基于病历的甲状腺疾病数据集分类模型的构建方法,其特征在于,在步骤3中数据预处理具体包括:步骤3

1)进行数据清洗,包括处理缺失值、异常值和噪声数据;步骤3

2)特征归一化,使用标准化方法将不同特征的值缩放到统一的范围;步骤3

3)特征选择,根据相关性分析、特征重要性评估和基于模型的特征选择方法,选择与甲状腺疾病分类具有显著相关性,特征与甲状腺疾病的分类结果之间存在一定程度的关联并对甲状腺疾病分类具有高贡献度的特征子集。4.根据权利要求1或2所述的基于病历的甲状腺疾病数据集分类模型的构建方法,其特征在于,在步骤4中构建多个分类模型具体包括:步骤4

1)使用支持向量机算法,通过调整核函数和正则化参数进行模型训练:步骤4

2)使用决策树算法,通过选择最佳分裂特征和树的深度进行模型训练;步骤4

3)使用逻辑回归算法,通过最大似然估计进行模型训练;步骤4

4)使用随机森林算法,通过构建多个决策树并进行投票决策进行模型训练。5.根据权利要求4所述的基于病历的甲状腺疾病数据集分类模型的构建方法,其特征在于,所述步骤4

1)具体包括:步骤4
‑1‑
1)选择高斯核函数以及正则化参数;步骤4
‑1‑
2)基于训练数据集,通过最大间隔分类原则寻找一...

【专利技术属性】
技术研发人员:窦琪翔朱毅朱顺
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1