【技术实现步骤摘要】
一种基于离散化数据的大脑影像分类方法
[0001]本专利技术涉及数据分类处理领域,更具体地,涉及一种基于离散化数据的大脑影像分类方法。
技术介绍
[0002]随着大脑影像学技术的不断发展,机器学习已被广泛应用于用于大脑影像的相关研究。其中对大脑影像数据进行分类,已成为大脑影像研究中的一个热点研究。
[0003]目前的基于机器学习的大脑影像分类方法常对原始大脑影像数据进行特征提取,并根据特征提取结果,利用分类器进行分类,得到大脑影像分类结果。该方法虽能实现大脑影像分类,但没有考虑到数据的分布特点和属性之间的相关性,使得算法的计算复杂度和存储需求大,造成分类精度低且效率低的缺陷。
技术实现思路
[0004]本专利技术为克服现有技术存在的精度低且效率低的缺陷,提出如下技术方案:本专利技术提出一种基于离散化数据的大脑影像分类方法,包括:S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集。
[0005]S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数。
[0006]S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案。
[0007]S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集。
[0008]S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集 ...
【技术保护点】
【技术特征摘要】
1.一种基于离散化数据的大脑影像分类方法,其特征在于,包括:S1:获取原始大脑影像数据集,并将所述原始大脑影像数据集划分为原始训练集、原始验证集和原始测试集;S2:构建包括数据集离散化前后的信息损失、分类错误率和离散数据复杂程度的多目标函数;S3:利用所述原始训练集和原始验证集对所述多目标函数的最优解进行搜索,得到离散化方案;S4:根据所述离散化方案分别对所述原始训练集、原始验证集和原始测试集进行离散化,得到离散训练集、离散验证集和离散测试集;S5:对所述离散训练集和离散验证集进行特征选择,并利用特征选择结果,对所述离散训练集和所述离散测试集进行特征精简,得到精简离散训练集和精简离散测试集;S6:利用所述精简离散训练集训练一个分类器,并将所述精简离散测试集输入训练好的分类器进行分类,得到大脑影像数据分类结果。2.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,S5具体包括:S5.1:计算离散训练集和离散验证集中每一列脑区特征的皮尔逊相关系数;S5.2:对离散训练集和离散验证集中每一列脑区特征,根据其皮尔逊相关系数的绝对值大小进行降序排序,选择前b个特征作为关键脑区特征候选集;其中b为通过网格搜索确定的超参数;S5.3:利用遗传算法在所述关键脑区特征候选集中进行特征选择,得到关键脑区特征集;S5.4:利用所述关键脑区特征集分别对所述离散训练集和离散测试集进行特征精简,得到精简离散训练集和精简离散测试集。3.根据权利要求2所述的基于离散化数据的大脑影像分类方法,其特征在于,所述关键脑区特征候选集包括:大脑皮层的表面面积、灰质体积、平均厚度、厚度标准差、积分校正平均曲率、积分校正高斯曲率、折叠指数和内在曲率指数。4.根据权利要求1所述的基于离散化数据的大脑影像分类方法,其特征在于,所述多目标函数的表达式如下所示:其中,表示最小化操作,表示数据集离散化前后的信息损失的目标函数,表示分类错误率的目标函数,表示离散数据复杂程度的目标函数,为原始大脑影像数据集中所有连续属性的离散区间数的集合,为第个连续属性的离散区间数,为原始大脑影像数据集中连续属性的个数;所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,数据集离散化前后的信息损失的目标函数如下所示:其中,为归一化折损累计增益,用于衡量数据集离散化前后属性的重要性排序的差异;
分类错误率的目标函数的表达式如下所示:其中,表示经过离散化的大脑影像数据集被应用在CART分类模型后,被错误分类的样本数在样本总数中所占的比例,表示对经过离散化的大脑影像数据集被应用在KNN分类器模型后,被错误分类的样本数在样本总数中所占的比例;离散数据复杂程度的目标函数统计原始大脑影像数据集中离散区间数不为1的连续属性的离散区间数,其表达式如下所示:。5.根据权利要求4所述的基于离散化数据的大脑影像分类方法,其特征在于,所述数据集离散化前后的信息损失为数据集离散化前后属性的重要性排序的差异,归一化折损累计增益的获取步骤具体包括:计算出原始大脑影像数据集中所有连续属性的总体相关系数值;根据所述原始大脑影像数据集中所有连续属性的总体相关系数值,构建原始大脑影像数据集中前k个连续属性的重要性排序的集合;其中表示原始大脑影像数据集中前个连续属性中的第个连续属性的重要性排名;对原始大脑影像数据集进行离散化,并计算出经过离散化的大脑影像数据集中所有离散属性的总体相关系数值;根据经过离散化的大脑影像数据集中所有离散属性的总体相关系数值,构建经过离散化的大脑影像数据集中前k个离散属性的重要性排序的集合,其中表示经过离散化的大脑影像数据集中前个离散属性中的第个离散属性的重要性排名;分别计算原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,其表达式如下所示:个离散属性的重要性排序的得分,其表达式如下所示:其中,为原始大脑影像数据集中前k个连续属性的重要性排序的得分,为经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分;根据原始大脑影像数据集前k个连续属性和经过离散化的大脑影像数据集中前k个离散属性的重要性排序的得分,计算归一化折损累计增益,其表达式如下所示:
。6.根据权利要求5所述的基于离散化数据的大脑影像分类方法,其特征在于,总体相关系数值的计算步骤如下所示:对维的原始大脑影像数据集或经过离散化的大脑影像数据集进行标准化,得到标准化大脑影像数据集,其表达式如下所示:其中,表示数据样本的数量,表示连续属性或离散属性的数量,为标准化大脑影像数据集,为原始大脑影像数据集或经过离散化的大脑影像数据集,为每一个元素都等于1的维矩阵,表示一个对角矩阵,对角元素表示第个连续属性或离散属性的标准差;经标准化后的样本数据的相关矩阵就是样本协方差矩阵,设为样本相关矩阵:计算原始大脑影像数...
【专利技术属性】
技术研发人员:潘丹,张怡聪,陈启俊,吕锦,骆根强,曾安,杨洋,刘军,
申请(专利权)人:广东技术师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。