一种基于离散化数据的大脑影像分类方法技术

技术编号:38442521 阅读:19 留言:0更新日期:2023-08-11 14:24
本发明专利技术涉及数据分类处理技术领域,公开了一种基于离散化数据的大脑影像分类方法,包括:将原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集;构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数,对多目标函数的最优解进行搜索,得到离散化方案;根据离散化方案分别对原始训练集、原始验证集和原始测试集进行离散化;对离散训练集和离散验证集进行特征选择,利用特征选择结果,对离散训练集和离散测试集进行特征精简,得到精简离散训练集和精简离散测试集;利用精简离散训练集训练一个分类器对精简离散测试集进行分类,得到大脑影像数据分类结果。本发明专利技术能够提高大脑影像分类任务的分类准确率和效率。类准确率和效率。类准确率和效率。

【技术实现步骤摘要】
一种基于离散化数据的大脑影像分类方法


[0001]本专利技术涉及数据分类处理领域,更具体地,涉及一种基于离散化数据的大脑影像分类方法。

技术介绍

[0002]随着大脑影像学技术的不断发展,机器学习已被广泛应用于用于大脑影像的相关研究。其中对大脑影像数据进行分类,已成为大脑影像研究中的一个热点研究。
[0003]目前的基于机器学习的大脑影像分类方法常对原始大脑影像数据进行特征提取,并根据特征提取结果,利用分类器进行分类,得到大脑影像分类结果。该方法虽能实现大脑影像分类,但没有考虑到数据的分布特点和属性之间的相关性,使得算法的计算复杂度和存储需求大,造成分类精度低且效率低的缺陷。

技术实现思路

[0004]本专利技术为克服现有技术存在的精度低且效率低的缺陷,提出如下技术方案:本专利技术提出一种基于离散化数据的大脑影像分类方法,包括:S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
[0005]S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数。
[0006]S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案。
[0007]S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集。
[0008]S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。
[0009]S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。
[0010]与现有技术相比,本专利技术技术方案的有益效果包括:(1)本专利技术通过对原始大脑影像数据集进行离散化,使用离散化大脑影像数据集用于后续的分类任务,能够充分考虑数据的分布特点和属性之间的相关性,以保留关键信息,降低算法的计算复杂度和存储需求,同时提高分类的准确性和效率。
[0011](2)本专利技术通过构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数,并利用多目标优化算法对所述多目标函数的最优解进行搜索,得到离散化方案,利用该离散化方案对原始大脑影像数据集进行离散化,能够减少大脑影像数据集离散化前后的信息损失的同时使得离散化大脑影像数据集更简单,降低分类错误率,使得后续大脑影像分类任务的分类准确率和效率大大提高。
附图说明
[0012]图1为实施例一中基于离散化数据的大脑影像分类方法的流程示意图。
[0013]图2为实施例二中对原始大脑影像数据集进行离散化的的实施框架图。
[0014]图3为实施例三中进行对比实验的流程示意图。
[0015]图4为实施例三中不同离散化算法在CART分类模型上的平均分类准确率及平均切点数比较结果图。
[0016]图5为实施例三中不同离散化算法在Naive Bayes分类模型上的平均分类准确率及平均切点数比较结果图。
[0017]图6为实施例三中不同离散化算法在KNN分类模型上的平均分类准确率及平均切点数比较结果图。
[0018]图7为实施例三中不同离散化算法在SVM分类模型上的平均分类准确率及平均切点数比较结果图。
[0019]图8为实施例三中离散化前后的不同数据集在CatBoost分类模型上的运行时间示意图。
具体实施方式
[0020]以下将参照附图和优选的技术方案来说明本专利技术的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。应当理解,优选的技术方案仅为了说明本专利技术,而不是为了限制本专利技术的保护范围。
[0021]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0022]在下文描述中,探讨了大量细节,以提供对本专利技术实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本专利技术的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本专利技术的实施例难以理解。
[0023]实施例一参阅图1,本实施例提出一种基于离散化数据的大脑影像分类方法,包括:S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
[0024]S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数。
[0025]S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案。
[0026]S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集。
[0027]S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。
[0028]S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。
[0029]可以理解的是,通过对原始大脑影像数据集进行离散化,使用离散化大脑影像数据集用于后续的分类任务,能够充分考虑数据的分布特点和属性之间的相关性,以保留关键信息,降低算法的计算复杂度和存储需求,同时提高分类的准确性和效率。通过构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数,并利用多目标优化算法对所述多目标函数的最优解进行搜索,得到离散化方案,利用该离散化方案对原始大脑影像数据集进行离散化,能够减少大脑影像数据集离散化前后的信息损失的同时使得离散化大脑影像数据集更简单,降低分类错误率,使得后续大脑影像分类任务的分类准确率和效率大大提高。
[0030]实施例二参阅图1和图2,本实施例在实施例一提出的基于离散化数据的大脑影像分类方法的基础上作出改进。
[0031]S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
[0032]本实施例中,从SchizConnect数据库下载COBRE数据集和MCICShare数据集,从所述COBRE数据集和所述MCICShare数据集中获取结构磁共振成像(structural MRI, sMRI)数据样本,sMRI数据样本包含有精神分裂症患者(SC)和正常对照(HC)两大群体。COBRE和MCICShar本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离散化数据的大脑影像分类方法,其特征在于,包括:S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集;S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数;S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案;S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集;S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集;S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。2.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,S5具体包括:S5.1:计算离散训练集和离散验证集中每一列脑区特征的皮尔逊相关系数;S5.2:对离散训练集和离散验证集中每一列脑区特征,根据其皮尔逊相关系数的绝对值大小进行降序排序,选择前b个特征作为关键脑区特征候选集;其中b为通过网格搜索确定的超参数;S5.3:利用遗传算法在所述关键脑区特征候选集中进行特征选择,得到关键脑区特征集;S5.4:利用所述关键脑区特征集分别对所述离散训练集和离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。3.根据权利要求2所述的基于离散化数据的大脑影像分类方法,其特征在于,所述关键脑区特征候选集包括:大脑皮层的表面面积、灰质体积、平均厚度、厚度标准差、积分校正平均曲率、积分校正高斯曲率、折叠指数和内在曲率指数。4.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,所述多目标函数的表达式如下所示:其中,表示最小化操作,表示数据集离散化前后的信息损失的目标函数,表示分类错误率的目标函数,表示离散数据复杂程度的目标函数,为原始大脑影像数据集中所有连续属性的离散区间数的集合,为第个连续属性的离散区间数,为原始大脑影像数据集中连续属性的个数;所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,数据集离散化前后的信息损失的目标函数如下所示:其中,为归一化折损累计增益,用于衡量数据集离散化前后属性的重要性排序的差异;
分类错误率的目标函数的表达式如下所示:其中,表示经过离散化的大脑影像数据集被应用在CART分类模型后,被错误分类的样本数在样本总数中所占的比例,表示对经过离散化的大脑影像数据集被应用在KNN分类器模型后,被错误分类的样本数在样本总数中所占的比例;离散数据复杂程度的目标函数统计原始大脑影像数据集中离散区间数不为1的连续属性的离散区间数,其表达式如下所示:。5.根据权利要求4所述的基于离散化数据的大脑影像分类方法,其特征在于,所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,归一化折损累计增益的获取步骤具体包括:计算出原始大脑影像数据集中所有连续属性的总体相关系数值;根据所述原始大脑影像数据集中所有连续属性的总体相关系数值,构建原始大脑影像数据集中前k个连续属性的重要性排序的集合;其中表示原始大脑影像数据集中前个连续属性中的第个连续属性的重要性排名;对原始大脑影像数据集进行离散化,并计算出经过离散化的大脑影像数据集中所有离散属性的总体相关系数值;根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,构建经过离散化的大脑影像数据集中前k个离散属性的重要性排序的集合,其中表示经过离散化的大脑影像数据集中前个离散属性中的第个离散属性的重要性排名;分别计算原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,其表达式如下所示:个离散属性的重要性排序的得分,其表达式如下所示:其中,为原始大脑影像数据集中前k个连续属性的重要性排序的得分,为经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分;根据原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,计算归一化折损累计增益,其表达式如下所示:
。6.根据权利要求5所述的基于离散化数据的大脑影像分类方法,其特征在于,总体相关系数值的计算步骤如下所示:对维的原始大脑影像数据集或经过离散化的大脑影像数据集进行标准化,得到标准化大脑影像数据集,其表达式如下所示:其中,表示数据样本的数量,表示连续属性或离散属性的数量,为标准化大脑影像数据集,为原始大脑影像数据集或经过离散化的大脑影像数据集,为每一个元素都等于1的维矩阵,表示一个对角矩阵,对角元素表示第个连续属性或离散属性的标准差;经标准化后的样本数据的相关矩阵就是样本协方差矩阵,设为样本相关矩阵:计算原始大脑影像数...

【专利技术属性】
技术研发人员:潘丹张怡聪陈启俊吕锦骆根强曾安杨洋刘军
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1