【技术实现步骤摘要】
基于烟花算法和支持向量机的乳腺癌临床数据分类方法
本专利技术属于数据分类领域,特别涉及了一种基于烟花算法和支持向量机(SVM)的乳腺癌临床数据分类方法。
技术介绍
根据全国癌症中心统计数据,2015年中国约有4292000例新发癌症病例,乳腺癌居女性肿瘤发病首位,其发病率和死亡率呈逐年上升的趋势,严重威胁女性的健康。因此提高乳腺癌的生存率、降低复发转移风险以及改善患者生存质量一直是医学界的研究热点。随着现代医学的发展和进步,乳腺癌的早期诊断和治疗是治愈乳腺癌的关键。早期诊断对临床治疗有重要意义。但目前已有的乳腺癌肿瘤数据分类方法存在分类准确度不高、选取特征多,计算时间久等不足。
技术实现思路
本专利技术为了解决现有技术中存在的问题,提供一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法。为了达到上述目的,本专利技术提出的技术方案为:一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,包括以下步骤:步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,把经过0-1标准化处理后的数据划分为训练集和测试集,设定优化目标为SVM分类准确度高且选择的数据集特征数量少;步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;步骤三、生成初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;即个体的适应度fit越高,则个体的质量越好;将初 ...
【技术保护点】
1.一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,包括以下步骤:/n步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,划分训练集和测试集;/n设定优化目标为SVM分类准确度高且选择的数据集特征数量少;/n步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;/n步骤三、生成烟花算法的初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;/n将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;/n步骤四、生成爆炸火花,引入差分变异策略,生成变异火花;/n首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;/n对生成的每个爆炸火花和变异火花,计算个体适应度值;/n步骤五、根据选择策略从烟花 ...
【技术特征摘要】
1.一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,包括以下步骤:
步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,划分训练集和测试集;
设定优化目标为SVM分类准确度高且选择的数据集特征数量少;
步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;
步骤三、生成烟花算法的初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;
将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;
步骤四、生成爆炸火花,引入差分变异策略,生成变异火花;
首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;
对生成的每个爆炸火花和变异火花,计算个体适应度值;
步骤五、根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花:
首先根据个体适应度值,从候选群体中选取适应度最大的一个进入下一代烟花群体中,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体;
步骤六、终止准则判断;
如果迭代代数t>Iter_Max,则终止迭代,输出最优个体及其对应的分类准确度;否则t=t+1,转步骤四。
2.根据权利要求1所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述分类准确度定义为通过训练集进行训练后的SVM分类器,在测试集数据上正确分类的样本数占总样本数的比例;分类准确度的计算公式为:
其中,TP表示被正确地划分为正类的样本个数,即实际为良性肿瘤数据且被分类器分为良性肿瘤数据的样本数,FP表示被错误地划分为正类的个数,即实际为恶性肿瘤数据但被分类器分为良性肿瘤数据的样本数,FN表示被错误地划分为负类的个数,即实际为良性肿瘤数据但被分类器分为恶性肿瘤数据的样本数,TN表示被正确地划分为负类的个数,即实际为恶性肿瘤数据且被分类器分为恶性肿瘤数据的样本数。
3.根据权利要求2所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述选择的特征数量的评估指标定义为:
所述问题的特征选择为,fi=0表示第i个特征被选择,fi=1表示第i个特征未被选择。
4.根据权利要求3所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述优化目标定义为:
maxF=Wa×SVM_Acc+Wf×FS
其中,Wa表示分类准确度的权重,Wf表示特征选择的权重,且Wf=1-Wa。
5.根据权利要求4所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:步骤三所述的群体中个体生成的方式采用混合编码,每个个体由2+nf个变量组成,前两个变量采用实数编码表示SVM的参数C和γ,后nf个变...
【专利技术属性】
技术研发人员:申晓宁,王谦,游璇,黄遥,陈庆洲,潘红丽,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。