一种基于SVM和混合采样算法的乳腺癌生存预测系统技术方案

技术编号:33781331 阅读:40 留言:0更新日期:2022-06-12 14:35
本发明专利技术属于数据挖掘领域,具体涉及一种基于SVM和混合采样算法的乳腺癌生存预测系统。首先从美国权威的癌症数据库(SEER数据库)中提取到需要的乳腺癌生存数据,再对数据进行预处理,将处理好的数据放入混合采样算法中,利用支持向量机对数据建模预测,最后和其他的算法进行对比,评估提出的系统的预测效果。本发明专利技术可以根据患者的生存数据特征自动预测患者5年的生存状况,降低了因医生疲劳、判断失误或经验不足的影响,同时帮助医生制定随访策略。同时帮助医生制定随访策略。

【技术实现步骤摘要】
一种基于SVM和混合采样算法的乳腺癌生存预测系统


[0001]本专利技术属于数据分类领域,涉及一种非平衡数据集处理方法,特 别是一种基于SVM和混合采样算法的乳腺癌生存预测系统。

技术介绍

[0002]乳腺癌是全世界女性群体中最常见的癌症之一,随着医疗技术水 平的发展,越来越多的乳腺癌患者接受了更加规范和全面的治疗。研 究乳腺癌5年的生存状况,能够降低医生因疲劳或经验不足带来的影 响,同时对乳腺癌临床治疗有重要意义。但目前对乳腺癌生存数据存 在类别失衡,预测方法存在精度低等不足。

技术实现思路

[0003]本专利技术的目的是为了解决在医学数据集中存在的类不平衡问题, 提供一种基于SVM和混合采样算法的乳腺癌生存预测系统。
[0004]为了达到上述目的,本专利技术提出的技术方案为:一种基于SVM和 混合采样算法的乳腺癌生存预测系统,包括以下步骤:
[0005](1)首先从SEER数据库中提取乳腺癌临床数据,并做乳腺癌数据 的预处理;
[0006](2)将处理好的数据按照7:3的比例划分为训练数据和测试数据;
[0007](3)针对训练数据的样本不平衡问题,用RSMOTE对少数类进行 过采样,使用关键规则欠采样对多数类进行欠采样,通过提出的混合 采样算法对数据进行平衡处理;
[0008](4)平衡训练集运用支持向量机进行分类训练测试,并与SMOTE、 ENN等经典过采样和欠采样方法对比,评估模型预测乳腺癌生存状 况的性能;
[0009](5)具体地,选择5组数据集上实验,采用十折交叉检验法,并使 用F

value和G

mean等作为评价指标进行对比;
[0010](6)更进一步地,通过构造混淆矩阵,同时用F

value和G

mean等 作为评价指标进行对比;
[0011](7)其中F

value结合准确率和召回率的比值,G

mean能很准确判 断分类器的性能。
附图说明:
[0012]图1为本专利技术一种基于SVM和混合采样算法的乳腺癌生存预测 系统的步骤流程示意图。
[0013]图2为本专利技术分类所构造混合采样算法步骤流程示意图。
[0014]图3为本专利技术分类所构造混合采样算法中RSMOTE算法步骤流 程示意图。
[0015]图4为本专利技术分类所构造混合采样算法中关键规则欠采样算法步 骤流程示意图。
具体实施方式:
[0016]为了使本专利技术的实施例中的技术方案能够清楚和完整地描述,结 合实施例及附图对本专利技术作进一步详细的描述。
[0017]本实例提出了一种基于SVM和混合采样算法的乳腺癌生存预测 系统,本实例的方法如图1所示,主要包括以下步骤:
[0018](1)提取筛选后的SEER数据库2010

2015年乳腺癌患者的数据。 包括:性别,年龄,肿瘤大小,肿瘤尺寸,肿瘤扩展,区域淋巴结转 移,远处转移分期,患者肤色。去除不需要、无意义的字段,将连续 数值离散化,特征变量数值化。使用Filter过滤法过滤掉不相关的特 征变量;因为乳腺癌的死亡率远远低于存活率,所以数据存在失衡的 现象,为了更好的研究乳腺癌的生存特征和生存状况的关系,在(2)中 提出混合采样模块;
[0019](2)将RSMOTE过采样和关键规则欠采样结合在一起,解决数据 的不平衡问题,具体的混合采样算法的流程图如图2,步骤如下:
[0020](2.1)设置目标平衡尺度为1,同时将不平衡数据集分成两类,多数 类S
d
和少数类S
s

[0021](2.2)对少数类样本使用RSMOTE算法,增加样本数量;
[0022](2.3)对多数类样本使用关键规则欠采样算法,删除噪声样本;
[0023](2.4)合并两个样本,得到平衡数据集;
[0024](2.5)根据S
d
/S
s
的值是否等于1判断多数类样本和少数类样本是否 相等;
[0025](2.6)不相等就重复2

3;
[0026](2.7)如果相等,合并样本,生成新的少数类样本和多数类样本相 等的数据集;
[0027]具体的RSMOTE算法的流程图如图3,步骤如下:
[0028](2.2.1)过滤噪声样本,生成新的样本集合P

,计算P

中样本的相对 密度;
[0029](2.2.2)根据P

样本的相对密度采用2均值聚类算法将密度向量 RD(P

)划分为两个聚类C
A
和C
B
,其中C
a
和C
b
分别代表C
A
和C
B
的 聚类中心,C
a
≥C
b
。P

A
、P

B
分别对应于C
A
、C
B
中的少数样本;
[0030](2.2.3)根据其k个最近邻居中多数样本的数量m,对xi生成的数 量重新加权,并分别在每个聚类中生成新的样本。对于每个聚类P

j
, j∈{A,B}中的每个少数样本x
i
,计算广义权重,初始化ω
i
,公式如下:
[0031][0032]其中|P'
j
|表示|P'
j
|的基数;
[0033](2.2.4)因此,我们给安全样本分配更多的权重,给混沌样本分配更 少的权重。然后我们计算每个少数样本x
i
需要生成的合成样本数N
i

[0034]N
i
=ω
i
*N
j
[0035]其中j∈{A,B};
[0036](2.2.5)最后,直接使用Populate(N
i
,I,narray)在每个聚类中生成新 的样本,生成的样本的并集作为所有合成数据集返回;
[0037]具体的关键规则欠采样算法的流程图如图4,步骤如下:
[0038](2.3.1)使用关联规则算法前要将数值型的值变成离散型的值,也 就是离散化;
[0039](2.3.2)利用关联规则算法,生成规则集,FP

tree算法速度较快,这 里选择FP

tree算法生成规则集;
[0040](2.3.3)按先置信度,对规则集进行降序排序处理,得到有序规则集 R
a

[0041](2.3.4)对多数类样本执行k

means聚类,得到k个簇;
[0042](2.3.5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SVM和混合采样算法的乳腺癌生存预测系统,其特征在于,包括以下步骤:(1)所述数据提取与数据预处理模块,提取筛选后的SEER数据库2010

2015年乳腺癌患者的数据,包括:性别,年龄,肿瘤大小,肿瘤尺寸,肿瘤扩展,区域淋巴结转移,远处转移分期,患者肤色;去除不需要、无意义的字段,将连续数值离散化,特征变量数值化;使用Filter过滤法过滤掉不相关的特征变量;(2)所述混合采样模块,将RSMOTE过采样和关键规则欠采样结合在一起,解决数据的不平衡问题;(3)所述支持向量机训练模块,将关键规则欠采样与RSMOTE混合算法处理平衡后的数据按照7:3的比值分为训练样本集和测试集两组;(4)所述支持向量机测试模块,所述测试数据用于加载训练好的支持向量机模型,利用测试样本集对训练好的支持向量机模型进行测试;(5)所述乳腺癌生存预测模块,利用训练好的支持向量机模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态;(6)所述的模型性能评估模块,运用支持向量机进行分类训练测试,并与SMOTE、RUS等经典过采样和欠采样方法对比,使用混淆矩阵、F

value、G

mean评估系统性能。2.如权利要求1所述的一种基于SVM和混合采样算法的乳腺癌生存预测系统,其特征在于,所述混合采样模块包括以下步骤:(1)设置目标平衡尺度为1,同时将不平衡数据集分成两类,多数类S
d
和少数类S
s
;(2)对多数类样本使用关键规则欠采样算法,删除噪声样本;(3)对少数类样本使用RSMOTE算法,增加样本数量;(4)合并两个样本,得到平衡数据集;(5)根据S
d
/S
s
的值是否等于1判断多数类样本和少数类样本是否相等;(6)不相等就重复2

3;(7)输出样本,应用SVM算法基于数据集做生存预测。3.如权利要求1所述的一种基于SVM和混合采样算法的乳腺癌生存预测系统,其特征在于,所述的混合采样模块中的RSMOTE算法包括以下步骤:(1)过滤噪声样本,生成新的样本集合P

,计算P

中样本的相对密度。对于集合中的每个样本x
i
我们从整个集合d计算它的k个最近邻,k个最近邻中多数样本的个数用m表示(0≤m≤k);如果m=k,即x
i
的所有k个最近邻居属于多数类,则x
i
被视为有噪声的样本,不在以下步骤中操作;如果m<k,将x
i
放入不包含检测到的噪声样本的新集合P

,并使用等式计算相对密度,其中D包含两类样本:D和D

,任何一点p∈D,其相对密度定义为:其中D包含两类样本:D和D

,任何一点p∈D,其相对密度定义为:首先,我们计算了每个
少数样本p和同质最近邻居、异质最近邻居的距离;其次,计算p到每个异质邻居的和除以p到同质邻居的和,生成p的相对密度;当一个少数样本在离其异质近邻较远且离其同质近邻较近的进行取样时,其相对密度将非常大,相对密度值越大,少数类样本的位置就越安全;相反,较小的值表示少数样本更接近边界。当P的相对密度非常小时,即少数样本距离其异质性较近,距离其同质邻居较远,P将被检测为噪声样本;其中的绝对密度和异构和同质k

最近邻的定义如下:定义1:(绝对密度)给定一组数据∈任何两个都可以,点p∈D和q∈D,(p,q)代表点p和q的距离,k
th

distance(p,D),表示K与D中最近邻居之间的最小距离;N
k
(p,D)代表p在D中的k个最近邻,N
k
(p,D)={q∈D|d(p,q)≤k
th

distance(p,D)}定义2:(异构和同质k

最近邻)给定一个数据集∈Rd,其中D包含两类样本:D和D

∈D,p的k个最近同质邻域定义为honk(p)={q|q∈D|D(p,q)≤k+
...

【专利技术属性】
技术研发人员:郑岩王卫兵周志成何金喜
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1