一种样本平衡方法及目标器官分割模型构建方法技术

技术编号:25638320 阅读:30 留言:0更新日期:2020-09-15 21:30
本发明专利技术公开了一种样本平衡方法及目标器官分割模型构建方法,样本平衡方法为,在训练过程中,每隔β个epoch,舍弃α%的负样本,直至负样本全部被舍弃。本发明专利技术在训练过程中,逐渐减少负样本数目,能在训练前期很好地利用负样本的相关特征信息,又能很好地避免过多负样本带来的样本不平衡问题,有效地解决了医学图像分割过程中存在的数据不平衡问题,提高了分割精度。

【技术实现步骤摘要】
一种样本平衡方法及目标器官分割模型构建方法
本专利技术涉及深度学习
,具体是一种基于负样本选择策略的样本平衡方法及目标器官分割模型构建方法。
技术介绍
医学图像的准确、自动分割是辅助医疗的重要前提。传统的水平集、阈值分割、区域生长等方法在一定程度上已经实现了自动或半自动分割,但这些方法的特征提取能力有限,分割的准确性难以满足临床需要。近几年,基于深度学习的分割方法已经在肝脏分割、脾脏分割、肺结节检测等任务中取得了巨大的成功。但是深度学习依赖大量的人工标注数据,在训练过程中不可避免地遇到一系列数据不平衡问题,例如前景-背景不平衡,困难-容易不平衡。这些不平衡问题得不到妥善处理,会干扰模型的训练过程,降低预测精度。在医学分割任务中最常见的不平衡问题就是前景与背景之间的不平衡和困难样本与容易样本之间的不平衡。前景-背景的不平衡往往是由以下两方面造成的:1、负样本数目过多;2、目标区域在正样本中的占比过小。与背景-前景不平衡不同,目前没有明确的标准来区分容易样本和困难样本。此外,分割任务的不同也会导致样本角色的变化,例如在在肝脏分割任务中的容易样本,在胰腺分割任务中可能就是困难样本,因此,很难在训练之前区分困难样本和容易样本。实验中,我们发现困难样本往往是由于样本自身的缺陷造成的,例如器官病变、肿瘤等,对于这些样本的准确分割在临床中具有重要的意义。目前,在普遍使用的由粗到细训练策略来解决样本不平衡问题,如图1所示,首先训练一个粗分割网络来获取目标的大致区域,然后通过剪切操作来获得感兴趣区域(ROIs),最后利用提取的ROIs作为网络的输入进行模型的精细训练。该方法通过减小背景区域以及负样本的数量解决在精细训练阶段的不平衡问题,但是无法处理粗分割阶段的不平衡问题。然而,该方法最终的分割精度严重依赖粗分割阶段的分割结果,ROIs识别不准确往往带来模型预测效果不可弥补的损失。因此,在粗分割阶段解决相关的不平衡问题是十分必要的。与正样本相比,大部分负样本是很容易训练的,过多易训练的负样本在一定程度上会干扰相关正样本在模型中的贡献,但是部分负样本在模型训练中也有一定贡献,特别是在训练的前期。传统样本挖掘方法直接去掉大量负样本,这可能导致训练不充分的问题。然而,直接去除所有负样本会带来分割精度的降低。
技术实现思路
针对现有模型训练过程中存在的前景-背景不平衡和困难-容易样本不平衡问题,本专利技术提出一种能够有效解决医学图像分割过程中样本不平衡问题的样本平衡方法,及基于该样本平衡方法的目标器官分割模型构建方法。本专利技术保护一种样本平衡方法,训练过程中,每隔β个epoch,舍弃α%的负样本,直至负样本全部被舍弃;优选的,从负样本远离正样本一端进行负样本舍弃。本专利技术还保护一种目标器官分割模型构建方法:首先,收集目标器官CT数据,并分组为训练集、验证集、测试集;其次,搭建卷积神经网络;再次,分割模型训练,训练过程中通过前述样本平衡方法进行样本处理;最后分割模型验证。进一步的,收集医学图像数据后,对原始数据进行预处理,将HU值规范到[-200,250],然后通过平移、翻转、镜像对样本进行扩增。进一步的,分割网络采用Encoder-Decoder模式,在Encoder和Decoder之间利用卷积块来进行底层信息与高层信息的融合。进一步的,模型训练过程中使用Adam优化器,交叉熵损失函数作为网络的损失函数。进一步的,采用三维连通域对分割结果进行后处理。本专利技术在训练过程中,逐渐减少负样本数目,能在训练前期很好地利用负样本的相关特征信息,又能很好地避免过多负样本带来的样本不平衡问题,有效地解决了医学图像分割过程中存在的数据不平衡问题,提高了分割精度。附图说明图1为样本不平衡问题由粗到细训练的解决策略;图2为每个病例样本分布示意图;图3为负样本逐步舍弃示意图;图4为L(α,β)参数不同时的r值变化折线图;图5卷积神经网络示意图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本专利技术限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本专利技术的原理和实际应用,并且使本领域的普通技术人员能够理解本专利技术从而设计适于特定用途的带有各种修改的各种实施例。实施例1为了普适化描述基于负样本选择策略的样本平衡方法,假设训练集中有m个病例,Xi代表第i个病例,i={1,2,...,m}。每个病例有数量不等的样本,假设第i个病例有n个样本,xi,j表示第i个病例的第j个样本,j={1,2,...,n}。基于医学图像数据的建立过程,每个病例的负样本往往位于正样本的两端,假设Ni,1={xi,1,…,xi,l-1}和Ni,2={xi,l+k,…,xi,n}分别表示负样本集合,Pi={xi,l,…,xi,l+k-1}表示负样本之间的正样本集合,如图2所示。负样本数目过多就存在样本不平衡的问题,干扰模型的训练过程,降低预测精度。若采用普遍使用的由粗到细训练策略来解决样本不平衡问题,负样本从训练初期就被舍弃,对于后续训练出来的分割模型的预测精度也存在影响。参照表1,AS表示所有样本参与训练,APS表示只有正样本参与训练,CDP表示连通域处理。从表1中可以看出,所有样本参与训练的平均DSC高于只有正样本参与训练的平均DSC,经过连通域处理后,DSC能够得到一定程度的提升。MethodMeanDSCMaxDSCMinDSCAS82.70%±7.01%88.76%67.92%AS+CDP82.83%±6.97%88.76%68.02%APS80.99%±4.63%87.36%72.52%APS+CDP81.73%±4.42%87.43%73.53%表1为此,本专利技术在训练过程中逐渐减少负样本数目,在增强模型对正样本特征的提取的同时,留存了负样本对于模型训练的价值。具体操作为,挑选每个病例的所有正样本以及部分与正样本相邻的连续负样本。定义负样本的样本选择比例为r∈[0,1],将选择的负样本分别标记为SNi,1和SNi,2,对应的样本数量分别为ni,1和ni,2,则ni,1=[(l-1)×r],ni,2=[(n-l-k+1)×r],从而,在Xi上选取的样本可标记为这个训练集训练过程中,可以通过逐步降低r值来减少训练集中的负样本,这样有助于帮助训练模型将更多的注意力放在正样本的特征提取上,进而提高分割结果的准确性。具体的,本实施例采用L(α,β)来调节r值,L(α,β)表示r值每隔β个epoch本文档来自技高网
...

【技术保护点】
1.一种样本平衡方法,样本包括正样本和分布于正样本两端的负样本,其特征在于,训练过程中,每隔β个epoch,舍弃α%的负样本,直至负样本全部被舍弃。/n

【技术特征摘要】
1.一种样本平衡方法,样本包括正样本和分布于正样本两端的负样本,其特征在于,训练过程中,每隔β个epoch,舍弃α%的负样本,直至负样本全部被舍弃。


2.根据权利要求1所述的样本平衡方法,其特征在于,每隔β个epoch,从负样本远离正样本一端舍弃α%的负样本。


3.一种目标器官分割模型构建方法,其特征在于,包括以下步骤:
步骤1,收集医学图像数据,并随机分为训练集、验证集、测试集;
步骤2,搭建卷积神经网络;
步骤3,分割模型训练,训练过程中通过权利要求1或2所述的样本平衡方法进行样本处理;
步骤4,分割模型验证。


4.根据权利要求1所述的目标器官分...

【专利技术属性】
技术研发人员:王宜主张勇
申请(专利权)人:安徽紫薇帝星数字科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1