基于总体相关系数的阿尔茨海默症特征提取方法及系统技术方案

技术编号:18399412 阅读:36 留言:0更新日期:2018-07-08 19:46
本发明专利技术公开了一种基于总体相关系数的阿尔茨海默症特征提取方法及系统,方法包括:获取阿尔茨海默症的磁共振成像数据;采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。本发明专利技术采用了基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,结合了总体相关系数和遗传算法来优化传统的特征提取过程,通过将总体相关系数作为启发性知识来提升遗传算法的特征寻优效率,并以分类效果最优为目标,在保证分类效果的前提下,有效提高了特征提取效率。本发明专利技术可广泛应用于数据挖掘领域。

【技术实现步骤摘要】
基于总体相关系数的阿尔茨海默症特征提取方法及系统
本专利技术涉及数据挖掘领域,尤其是一种基于总体相关系数的阿尔茨海默症特征提取方法及系统。
技术介绍
阿尔茨海默症(Alzheimer'sDisease,AD)是一种不可逆的慢性神经系统退行性疾病,是一种持续性高级神经功能活动障碍。AD现有的药物治疗手段非常有限,但早期准确发现、治疗能减缓疾病进程。轻度认知损害(MildCognitiveImpairment,MCI)是介于正常健康者(HealthControllers,HC)和AD之间的过渡阶段,MCI患者是AD的高危人群。国内外的研究指出,AD的重要病理学征象和生物标示,可以通过磁共振成像(MagneticResonanceImaging,MRI)进行测量。从MRI提取有效特征,以对AD、MCI和HC三个阶段进行分类识别的方法,是近年来研究的热点。MRI具有“高维度”和“信息量大”的特点,但并非从MRI中提取到的所有特征都对AD的分类起到关键作用。从MRI提供的大量特征中寻找到用以区分AD、MCI和HC三个阶段的关键特征,成为当前研究工作的重点。但是,遍历特征的所有组合情况是一个NP难(NondeterminismPolynomial-Hard,NP-Hard)问题,因此在特征选择方法上,需要选择高效方法。遗传算法(GA)是以自然选择和遗传理论为基础,将生物进化过程中适者生存规则与群体内部染色体的随机信息交换机制相结合的搜索算法。它在搜索之前,先将变量以某种形式进行编码(编码后的变量称为染色体),不同的染色体构成一个群体。对于群体中的染色体,将以某种方法评估出其适应值。该算法作为模拟自然界生物进化过程与机制求解问题的一类自组织与自适应的人工智能技术,已广泛应用于计算机科学、人工智能、信息技术及工程实践。根据实际研究问题的特殊性,研究学者提出了很多关于GA的进一步优化算法。总体相关系数(CollectiveCorrelationCoefficient,CCC)是基于粗集理论和主成分分析的知识获取方法(KA-RSPCA)的重要组成部分。KA-RSPCA是在决策表信息系统中知识或条件属性存在冗余的背景下提出的高效属性简约方法。其中CCC值是条件属性与所有主成分的关联程度的加权平均,衡量了每个条件属性对决策表“因”信息的贡献度。若用CCC值作为GA的启发性知识,使得对“因”信息贡献度越大的属性以大概率被作为关键特征保留,则有助于提升算法的寻优效率。然而,目前尚未见到将总体相关系数与遗传算法相结合来进行特征提取的报道,更没有将基于总体相关系数的遗传算法应用于阿尔茨海默症特征提取研究中,未能短时间内寻找阿尔茨海默症的关键特征,寻优效率有待进一步提升。
技术实现思路
为解决上述技术问题,本专利技术的目的在于:提供一种寻优效率高的,基于总体相关系数的阿尔茨海默症特征提取方法及系统。本专利技术所采取的第一技术方案是:基于总体相关系数的阿尔茨海默症特征提取方法,包括以下步骤:获取阿尔茨海默症的磁共振成像数据;采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。进一步,所述获取阿尔茨海默症的磁共振成像数据这一步骤,具体为:从阿尔茨海默症神经影像学倡议标准数据库中选取若干张磁共振图像作为阿尔茨海默症的磁共振成像数据。进一步,所述采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征这一步骤,具体包括:对阿尔茨海默症的磁共振成像数据进行预处理,得到若干个样本以及每个样本关于左右脑各个区域的所有相关特征;根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征。进一步,所述根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征这一步骤,具体包括:分别计算得到的所有相关特征中每个特征的总体相关系数,并根据计算的总体相关系数值的大小对所有相关特征进行降序排序和分类,从而将相关特征按照总体相关系数值的大小划入高质量特征集、中质量特征集或低质量特征集;对所有相关特征进行二进制编码,所述进行二进制编码时一个染色体中基因为1代表该位上的特征为关键特征,基因为0代表该位上的特征为非关键特征;确定遗传策略,所述遗传策略包括群体规模大小、选择算子、交叉算子和变异概率;根据降序排序和分类的结果以及二进制编码的结果,初始化种群为1111……0000,其中,1的数量为高质量特征集中特征的数量,0的数量为中质量特征集中特征的数量与低质量特征集中特征的数量之和;按设定比例将若干个样本划分为训练样本和测试样本;根据染色体与关键特征集的映射关系,选择训练样本的关键特征训练阿尔茨海默症分类器;通过测试样本对阿尔茨海默症分类器进行测试,得到训练样本的关键特征在阿尔茨海默症分类器中的平均分类准确率和平均受试者工作特征曲线下面积值,并把平均受试者工作特征曲线下面积值作为染色体的适应度值;根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征。进一步,所述根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征这一步骤,具体包括:根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代;对选出的染色体根据单点交叉算子进行交叉操作,产生新染色体;对新染色体根据变异概率进行变异操作,得到下一代新染色体;判断迭代是否已满足预定的迭代终止条件,若是,则执行下一步骤的操作,反之,则返回根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代这一步骤;根据迭代终止时的适应度值得到最优染色体,并根据染色体与关键特征集的映射关系对最优染色体进行解码,最终得到阿尔茨海默症的关键特征。进一步,所述高质量特征集中特征的总体相关系数大于0.3,所述质量特征集中特征的总体相关系数大于0.2且小于等于0.3,所述低质量特征集中特征的总体相关系数小于等于0.2;所述预定的迭代终止条件为父子两代染色体的适应度值之差的绝对值小于0.0001或迭代次数达到100000。进一步,所述基于轮盘赌选择法的选择算子中第i个染色体被选中的概率Ps的计算公式为:其中,AUCi和AUCj分别为第i个和第j个染色体对应的受试者工作特征曲线下面积值,n为若干个样本的总数量。进一步,所述变异概率采用改进的基本位变异算法计算出来,所述变异概率的具体计算方式为:若染色体的当前基因位对应的特征tw属于高质量特征集且当前基因位编码为0,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于高质量特征集且当前基因位编码为1,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于中质量特征集,则当前基因位上变异的概率为0.01;若染色体的当前基因位对应的特征tw属于低质量特征集且当前基因位编码为0,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于低本文档来自技高网
...

【技术保护点】
1.基于总体相关系数的阿尔茨海默症特征提取方法,其特征在于:包括以下步骤:获取阿尔茨海默症的磁共振成像数据;采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。

【技术特征摘要】
1.基于总体相关系数的阿尔茨海默症特征提取方法,其特征在于:包括以下步骤:获取阿尔茨海默症的磁共振成像数据;采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。2.根据权利要求1所述的基于总体相关系数的阿尔茨海默症特征提取方法,其特征在于:所述获取阿尔茨海默症的磁共振成像数据这一步骤,具体为:从阿尔茨海默症神经影像学倡议标准数据库中选取若干张磁共振图像作为阿尔茨海默症的磁共振成像数据。3.根据权利要求1所述的基于总体相关系数的阿尔茨海默症特征提取方法,其特征在于:所述采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征这一步骤,具体包括:对阿尔茨海默症的磁共振成像数据进行预处理,得到若干个样本以及每个样本关于左右脑各个区域的所有相关特征;根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征。4.根据权利要求3所述的基于总体相关系数的阿尔茨海默症特征提取方法,其特征在于:所述根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征这一步骤,具体包括:分别计算得到的所有相关特征中每个特征的总体相关系数,并根据计算的总体相关系数值的大小对所有相关特征进行降序排序和分类,从而将相关特征按照总体相关系数值的大小划入高质量特征集、中质量特征集或低质量特征集;对所有相关特征进行二进制编码,所述进行二进制编码时一个染色体中基因为1代表该位上的特征为关键特征,基因为0代表该位上的特征为非关键特征;确定遗传策略,所述遗传策略包括群体规模大小、选择算子、交叉算子和变异概率;根据降序排序和分类的结果以及二进制编码的结果,初始化种群为1111……0000,其中,1的数量为高质量特征集中特征的数量,0的数量为中质量特征集中特征的数量与低质量特征集中特征的数量之和;按设定比例将若干个样本划分为训练样本和测试样本;根据染色体与关键特征集的映射关系,选择训练样本的关键特征训练阿尔茨海默症分类器;通过测试样本对阿尔茨海默症分类器进行测试,得到训练样本的关键特征在阿尔茨海默症分类器中的平均分类准确率和平均受试者工作特征曲线下面积值,并把平均受试者工作特征曲线下面积值作为染色体的适应度值;根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征。5.根据权利要求4所述的基于总体相关系数的阿尔茨海默症特征提取方法,其特征在于:所述根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征这一步骤,具...

【专利技术属性】
技术研发人员:潘丹曾安
申请(专利权)人:广州市本真网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1