【技术实现步骤摘要】
一种基于SVM和混合采样算法的乳腺癌生存预测系统
:
[0001]本专利技术属于数据分类领域,涉及一种非平衡数据集处理方法,特 别是一种基于SVM和混合采样算法的乳腺癌生存预测系统。
技术介绍
:
[0002]乳腺癌是全世界女性群体中最常见的癌症之一,随着医疗技术水 平的发展,越来越多的乳腺癌患者接受了更加规范和全面的治疗。研 究乳腺癌5年的生存状况,能够降低医生因疲劳或经验不足带来的影 响,同时对乳腺癌临床治疗有重要意义。但目前对乳腺癌生存数据存 在类别失衡,预测方法存在精度低等不足。
技术实现思路
:
[0003]本专利技术的目的是为了解决在医学数据集中存在的类不平衡问题, 提供一种基于SVM和混合采样算法的乳腺癌生存预测系统。
[0004]为了达到上述目的,本专利技术提出的技术方案为:一种基于SVM和 混合采样算法的乳腺癌生存预测系统,包括以下步骤:
[0005](1)首先从SEER数据库中提取乳腺癌临床数据,并做乳腺癌数据 的预处理;
[0006](2)将处理好的数据按照7:3的比例划分为训练数据和测试数据;
[0007](3)针对训练数据的样本不平衡问题,用RSMOTE对少数类进行 过采样,使用关键规则欠采样对多数类进行欠采样,通过提出的混合 采样算法对数据进行平衡处理;
[0008](4)平衡训练集运用支持向量机进行分类训练测试,并与SMOTE、 ENN等经典过采样和欠采样方法对比,评估模型预测乳腺癌生存状 况的性能;
[0009](5)具体地,选 ...
【技术保护点】
【技术特征摘要】
1.一种基于SVM和混合采样算法的乳腺癌生存预测系统,其特征在于,包括以下步骤:(1)所述数据提取与数据预处理模块,提取筛选后的SEER数据库2010
‑
2015年乳腺癌患者的数据,包括:性别,年龄,肿瘤大小,肿瘤尺寸,肿瘤扩展,区域淋巴结转移,远处转移分期,患者肤色;去除不需要、无意义的字段,将连续数值离散化,特征变量数值化;使用Filter过滤法过滤掉不相关的特征变量;(2)所述混合采样模块,将RSMOTE过采样和关键规则欠采样结合在一起,解决数据的不平衡问题;(3)所述支持向量机训练模块,将关键规则欠采样与RSMOTE混合算法处理平衡后的数据按照7:3的比值分为训练样本集和测试集两组;(4)所述支持向量机测试模块,所述测试数据用于加载训练好的支持向量机模型,利用测试样本集对训练好的支持向量机模型进行测试;(5)所述乳腺癌生存预测模块,利用训练好的支持向量机模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态;(6)所述的模型性能评估模块,运用支持向量机进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比,使用混淆矩阵、F
‑
value、G
‑
mean评估系统性能。2.如权利要求1所述的一种基于SVM和混合采样算法的乳腺癌生存预测系统,其特征在于,所述混合采样模块包括以下步骤:(1)设置目标平衡尺度为1,同时将不平衡数据集分成两类,多数类S
d
和少数类S
s
;(2)对多数类样本使用关键规则欠采样算法,删除噪声样本;(3)对少数类样本使用RSMOTE算法,增加样本数量;(4)合并两个样本,得到平衡数据集;(5)根据S
d
/S
s
的值是否等于1判断多数类样本和少数类样本是否相等;(6)不相等就重复2
‑
3;(7)输出样本,应用SVM算法基于数据集做生存预测。3.如权利要求1所述的一种基于SVM和混合采样算法的乳腺癌生存预测系统,其特征在于,所述的混合采样模块中的RSMOTE算法包括以下步骤:(1)过滤噪声样本,生成新的样本集合P
′
,计算P
′
中样本的相对密度。对于集合中的每个样本x
i
我们从整个集合d计算它的k个最近邻,k个最近邻中多数样本的个数用m表示(0≤m≤k);如果m=k,即x
i
的所有k个最近邻居属于多数类,则x
i
被视为有噪声的样本,不在以下步骤中操作;如果m<k,将x
i
放入不包含检测到的噪声样本的新集合P
′
,并使用等式计算相对密度,其中D包含两类样本:D和D
‑
,任何一点p∈D,其相对密度定义为:其中D包含两类样本:D和D
‑
,任何一点p∈D,其相对密度定义为:首先,我们计算了每个
少数样本p和同质最近邻居、异质最近邻居的距离;其次,计算p到每个异质邻居的和除以p到同质邻居的和,生成p的相对密度;当一个少数样本在离其异质近邻较远且离其同质近邻较近的进行取样时,其相对密度将非常大,相对密度值越大,少数类样本的位置就越安全;相反,较小的值表示少数样本更接近边界。当P的相对密度非常小时,即少数样本距离其异质性较近,距离其同质邻居较远,P将被检测为噪声样本;其中的绝对密度和异构和同质k
‑
最近邻的定义如下:定义1:(绝对密度)给定一组数据∈任何两个都可以,点p∈D和q∈D,(p,q)代表点p和q的距离,k
th
‑
distance(p,D),表示K与D中最近邻居之间的最小距离;N
k
(p,D)代表p在D中的k个最近邻,N
k
(p,D)={q∈D|d(p,q)≤k
th
‑
distance(p,D)}定义2:(异构和同质k
‑
最近邻)给定一个数据集∈Rd,其中D包含两类样本:D和D
‑
∈D,p的k个最近同质邻域定义为honk(p)={q|q∈D|D(p,q)≤k+
...
【专利技术属性】
技术研发人员:郑岩,王卫兵,周志成,何金喜,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。