基于烟花算法和支持向量机的乳腺癌临床数据分类方法技术

技术编号:26479529 阅读:32 留言:0更新日期:2020-11-25 19:24
本发明专利技术公开了一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,该方法利用改进烟花算法,设计新的适应度评价函数,引入改进的变异策略和基于适应度值的轮盘赌选择策略,利用改进的烟花算法对分类所需特征进行选择和支持向量机的参数优化,删除了冗余特征,有效提升了分类的准确度和效率。本发明专利技术在乳腺癌肿瘤的良性或恶性识别、以及经治疗后患者的预后复发分类数据集上均具有较高的分类准确度,为医疗人员辅助诊断乳腺癌提供了较好的智能方法。

【技术实现步骤摘要】
基于烟花算法和支持向量机的乳腺癌临床数据分类方法
本专利技术属于数据分类领域,特别涉及了一种基于烟花算法和支持向量机(SVM)的乳腺癌临床数据分类方法。
技术介绍
根据全国癌症中心统计数据,2015年中国约有4292000例新发癌症病例,乳腺癌居女性肿瘤发病首位,其发病率和死亡率呈逐年上升的趋势,严重威胁女性的健康。因此提高乳腺癌的生存率、降低复发转移风险以及改善患者生存质量一直是医学界的研究热点。随着现代医学的发展和进步,乳腺癌的早期诊断和治疗是治愈乳腺癌的关键。早期诊断对临床治疗有重要意义。但目前已有的乳腺癌肿瘤数据分类方法存在分类准确度不高、选取特征多,计算时间久等不足。
技术实现思路
本专利技术为了解决现有技术中存在的问题,提供一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法。为了达到上述目的,本专利技术提出的技术方案为:一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,包括以下步骤:步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,把经过0-1标准化处理后的数据划分为训练集和测试集,设定优化目标为SVM分类准确度高且选择的数据集特征数量少;步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;步骤三、生成初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;即个体的适应度fit越高,则个体的质量越好;将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;步骤四、生成爆炸火花,引入差分变异策略,增强群体的交互性;首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;变异操作为DM/best/2,其中DM表示差分变异算子,best表示扰动的父向量采用当前最优个体,2表示差分向量的数目;对生成的每个爆炸火花和变异火花对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度,根据分类准确度和使用特征数量计算个体适应度值;步骤五、根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花:首先根据个体适应度值,从候选群体中选取适应度最大的一个进入下一代烟花群体中,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体;步骤六、终止准则判断;如果迭代代数t>Iter_Max,则终止迭代,输出最优个体及其对应的分类准确度,其中该个体表示SVM的最优参数C,γ和选择的特征子集;否则t=t+1,转步骤四。对上述技术方案的进一步设计为:所述分类准确度定义为通过训练集进行训练后的SVM分类器,在测试集数据上正确分类的样本数占总样本数的比例;分类准确度的计算公式为:其中,TP表示被正确地划分为正类的样本个数,即实际为良性肿瘤数据且被分类器分为良性肿瘤数据的样本数,FP表示被错误地划分为正类的个数,即实际为恶性肿瘤数据但被分类器分为良性肿瘤数据的样本数,FN表示被错误地划分为负类的个数,即实际为良性肿瘤数据但被分类器分为恶性肿瘤数据的样本数,TN表示被正确地划分为负类的个数,即实际为恶性肿瘤数据且被分类器分为恶性肿瘤数据的样本数,SVM_Acc的值越大,则表示分类准确度越高。所述选择的特征数量的评估指标定义为:所述问题的特征选择为,fi=0表示第i个特征被选择,fi=1表示第i个特征未被选择,即被选择的特征数量越少,则对特征选择数量的评估指标值FS越大。所述优化目标定义为:maxF=Wa×SVM_Acc+Wf×FS其中,Wa表示分类准确度的权重,Wf表示特征选择的权重,且Wf=1-Wa。步骤三所述的群体中个体生成的方式采用混合编码,每个个体由2+nf个变量组成,前两个变量采用实数编码表示SVM的参数C和γ,后nf个变量对应数据集的nf个特征,采用{0,1}二进制编码表示该特征是否在分类中被选择。所述步骤四中采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量的方法为:其中,Xi表示需要爆炸的烟花,Ai表示生成的爆炸半径,表示限制爆炸幅度的参数,ymax、ymax分别表示当前群体中适应度的最大、最小值,N表示群体规模,Si表示爆炸火花数量,M表示限制爆炸火花数量的参数,ε为常数,为防止出现分母为零的情况,ε可以取很小的常数。所述爆炸火花生成方法为:其中,表示第i个烟花Xi生成的第j个爆炸火花在第k维的位置,表示第i个烟花Xi的第k维,rand(-1,1)表示在[-1,1]内生成的一个服从均匀分布的随机数;对生成的第j个爆炸火花进行越界检测,如果爆炸火花的某一维度超出边界,则使用映射规则将其映射到可行域区域内,具体实现方法为:其中,是通过映射规则策略,把超出可行域边界爆炸火花和高斯变异火花映射到爆炸空间后的新位置,UB、LB为可行域的上下边界,rand(0,1)表示在[0,1]内生成的一个服从均匀分布的随机数。步骤四中所述引入差分变异策略,生成变异火花的方法为:其中,Vik表示第i个烟花Xi生成的差分变异火花在第k维上的值,F1和F2表示取值范围在[0,2]之间的缩放因子,表示当前一代最优个体在第k维上的值,和表示差分向量,和表示从第i个烟花Xi生成的爆炸火花中随机选取的四个不同的个体。步骤四中所述生成变异火花的实现步骤为:(a)从{1,2,L,Si}中随机选取4个不同的索引r1,r2,r3和r4,并根据索引从第i个烟花Xi生成的爆炸火花中选取四个不同的个体;(b)对第i个烟花Xi的前两位,生成差分变异火花;对第i个烟花个体的第3到2+nf位,以变异概率为0.1,采用遗传算法的基本位变异进行变异操作,如果依据变异概率,某位需要变异,该位上原为1则置0,该位上原为0则置1,得到第i个差分变异火花Vi;(c)越界检测,如果变异火花的某一维度Vik超出边界,则使用映射规则将其映射到可行域区域内。步骤五中基于适应度值的轮盘赌选择策略表示烟花个体Xi被选中的概率Pi与适应度fiti成正比,即个体Xi被选中的概率Pi和累计概率Qi为:其中,fiti为第i个体Xi的适应度值,m为候选群体中烟花、爆炸火花和变异火花的总数。步骤五中所述基于适应度值的轮盘赌选择策略实现步骤为:(a)确定规模为m的候选群体,需要选出个体数量N-1,令选择计数器g=1;(b)计算候选群体中每个个体被选中的概本文档来自技高网...

【技术保护点】
1.一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,包括以下步骤:/n步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,划分训练集和测试集;/n设定优化目标为SVM分类准确度高且选择的数据集特征数量少;/n步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;/n步骤三、生成烟花算法的初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;/n将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;/n步骤四、生成爆炸火花,引入差分变异策略,生成变异火花;/n首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;/n对生成的每个爆炸火花和变异火花,计算个体适应度值;/n步骤五、根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花:/n首先根据个体适应度值,从候选群体中选取适应度最大的一个进入下一代烟花群体中,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体;/n步骤六、终止准则判断;/n如果迭代代数t>Iter_Max,则终止迭代,输出最优个体及其对应的分类准确度;否则t=t+1,转步骤四。/n...

【技术特征摘要】
1.一种基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于,包括以下步骤:
步骤一、输入乳腺癌临床数据集,数据集包括良性肿瘤数据和恶性肿瘤数据,每组数据都包含多个特征,对数据集进行处理,划分训练集和测试集;
设定优化目标为SVM分类准确度高且选择的数据集特征数量少;
步骤二、设置烟花算法参数,群体规模为N、最大迭代次数Iter_Max、变异火花数M,设置代数计数器t=0;
步骤三、生成烟花算法的初始群体,并计算群体内个体的适应度值fit,适应度值fit等于目标值F;
将初始群体每个个体对应的SVM参数和选择的特征分别代入SVM分类器,通过训练集进行训练,并利用测试集计算训练后的SVM分类器的分类准确度SVM_Acc,根据分类准确度和使用特征数量计算个体适应度值;
步骤四、生成爆炸火花,引入差分变异策略,生成变异火花;
首先,对群体中的每个烟花个体,采用基本烟花中的方法计算爆炸火花半径和爆炸火花数量,并生成爆炸火花;然后,随机选取M个烟花,对其分别采用差分变异策略生成M个变异火花;
对生成的每个爆炸火花和变异火花,计算个体适应度值;
步骤五、根据选择策略从烟花、爆炸火花和变异火花中选择N个作为下一代烟花:
首先根据个体适应度值,从候选群体中选取适应度最大的一个进入下一代烟花群体中,然后采用基于适应度值的轮盘赌选择策略从候选群体中选取N-1个烟花、爆炸火花或变异火花进入下一代烟花群体;
步骤六、终止准则判断;
如果迭代代数t>Iter_Max,则终止迭代,输出最优个体及其对应的分类准确度;否则t=t+1,转步骤四。


2.根据权利要求1所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述分类准确度定义为通过训练集进行训练后的SVM分类器,在测试集数据上正确分类的样本数占总样本数的比例;分类准确度的计算公式为:



其中,TP表示被正确地划分为正类的样本个数,即实际为良性肿瘤数据且被分类器分为良性肿瘤数据的样本数,FP表示被错误地划分为正类的个数,即实际为恶性肿瘤数据但被分类器分为良性肿瘤数据的样本数,FN表示被错误地划分为负类的个数,即实际为良性肿瘤数据但被分类器分为恶性肿瘤数据的样本数,TN表示被正确地划分为负类的个数,即实际为恶性肿瘤数据且被分类器分为恶性肿瘤数据的样本数。


3.根据权利要求2所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述选择的特征数量的评估指标定义为:



所述问题的特征选择为,fi=0表示第i个特征被选择,fi=1表示第i个特征未被选择。


4.根据权利要求3所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:所述优化目标定义为:
maxF=Wa×SVM_Acc+Wf×FS
其中,Wa表示分类准确度的权重,Wf表示特征选择的权重,且Wf=1-Wa。


5.根据权利要求4所述基于烟花算法和支持向量机的乳腺癌临床数据分类方法,其特征在于:步骤三所述的群体中个体生成的方式采用混合编码,每个个体由2+nf个变量组成,前两个变量采用实数编码表示SVM的参数C和γ,后nf个变...

【专利技术属性】
技术研发人员:申晓宁王谦游璇黄遥陈庆洲潘红丽
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1