当前位置: 首页 > 专利查询>中山大学专利>正文

基于强化学习和迁移学习的图像语义分割模型及建模方法技术

技术编号:23471487 阅读:37 留言:0更新日期:2020-03-06 13:14
本发明专利技术涉及图像的语义分割技术领域,更具体地,涉及一种基于强化学习和迁移学习的图像语义分割模型及建模方法,包括顺次通信连接的用于对原始图像进行预处理的预处理模块、用于强化学习中的环境部分的感知模块、用于强化学习中的智能体部分的像素类别决策模块。本发明专利技术将图像语义分割看成一种序列决策的过程,顺序地决定各像素的类别而不是一次性生成整张图像的分割结果,能够有效利用像素与像素之间的关系,减少训练时间,提高图像分割效果的精确性。

Image semantic segmentation model and modeling method based on reinforcement learning and transfer learning

【技术实现步骤摘要】
基于强化学习和迁移学习的图像语义分割模型及建模方法
本专利技术涉及图像的语义分割
,更具体地,涉及一种基于强化学习和迁移学习的图像语义分割模型及建模方法。
技术介绍
图像分割是计算机视觉领域的一项基本而富有挑战性的工作,已成为图像理解的重要组成部分。图像分割的目标是从输入图像中提取有意义的目标对象,将目标对象与背景完全分离出来,即进行像素级的分类,找到目标对象的轮廓分界线。传统的图像分割方法是利用图像的灰度、纹理、形状等基本特征,采用数字图像处理、拓补学、数学等方面的原理进行分割。随着机器学习、深度学习的发展,图像分割模型的效果已经远超传统的分割方法,产生了很多研究成果,但是还没有形成一个通用的标准方法,以适应各种各样的数据集。目前常用来解决图像分割问题的技术大多以全卷积网络FCN为基础。FCN是通过反卷积与上采样,得到与输入图像相同尺寸的特征图,从而进行像素级的分类,解决了语义级的图像分割问题。基于区域选择的模型也逐渐由目标检测延伸到图像分割领域,例如MaskR-CNN模型是以FasterR-CNN模型为基础,在原本的候选框坐标回归和分类这两个分支上,增加了一个分支用来进行语义分割,这样不仅完成了目标检测与目标分类,还完成了像素级的图像语义分割。但这些基于或部分利用FCN思想的网络,由于上采样,模型对图像的细节不够敏感,语义分割比较模糊,并且没有充分考虑像素与像素之间的关系,即判断某个像素为某类别时对判断周围像素的影响,缺乏空间上的一致性。
技术实现思路
本专利技术的目的在于克服像素与像素之间缺乏空间上的一致性的不足,提供一种基于强化学习和迁移学习的图像语义分割模型及建模方法,将图像语义分割看成一种序列决策的过程,顺序地决定各像素的类别而不是一次性生成整张图像的分割结果,能够有效利用像素与像素之间的关系,减少训练时间,提高图像分割效果的精确性。为解决上述技术问题,本专利技术采用的技术方案是:提供一种基于强化学习和迁移学习的图像语义分割模型,包括:预处理模块,用于对原始图像进行预处理;感知模块,用于强化学习中的环境部分;像素类别决策模块,用于强化学习中的智能体部分;所述预处理模块、感知模块、像素类别决策模块顺次通信连接。本专利技术包括一种基于强化学习和迁移学习的图像语义分割模型,预处理模块对原始图像进行预处理,包括调整图像大小到固定尺寸;感知模块作为强化学习中的环境部分,包含状态生成子模块和奖励生成子模块;奖励生成子模块包括分割效果奖励和分割比例奖励;像素类别决策模块作为强化学习中的智能体部分,包含图像特征提取子模块和像素类别选择模块;基于强化学习框架,感知模块会将状态输入到像素类别决策模块,由像素类别决策模块选择动作,然后感知模块会对此动作做出评价反馈给像素类别决策模块,以此对像素类别决策模块中的卷积神经网络进行训练。进一步地,所述感知模块包括:状态生成子模块,用于根据精细或粗略等级生成不同的状态;奖励生成子模块,用于生成奖励;所述状态生成子模块与奖励生成子模块、预处理模块通信连接。进一步地,所述奖励生成子模块生成的奖励包括分割效果奖励和分割比例奖励。进一步地,所述像素类别决策模块包括:图像特征提取子模块,用于对输入的状态提取特征;像素类别选择子模块,用于根据Q值选择像素类别决策作为动作输出;所述图像特征提取子模块与像素类别选择子模块、状态生成子模块通信连接,所述像素类别选择子模块与状态生成子模块通信连接。进一步地,所述图像特征提取子模块包括特征提取网络和经验回放存储器Ω;所述特征提取网络为卷积神经网络,其输出层的节点对应每个像素类别选择动作的Q值,所述经验回放存储器Ω用于对所述特征提取网络的参数进行训练。本专利技术还包括一种基于强化学习和迁移学习的图像语义分割模型的建模方法,包括以下步骤:S1.通过所述预处理模块对图像数据集进行预处理,将原始图像剪裁成固定大小,并随机旋转,得到数据集<图像X,标注图像Y>,划分训练集和测试集;S2.利用迁移学习对所述图像特征提取子模块的卷积神经网络参数θ进行初始化;S3.利用强化学习的深度Q网络框架,使用所述训练集,对所述图像特征提取子模块的卷积神经网络进行训练;S4.使用步骤S3中训练好的参数对测试集图像的分割结果进行预测。进一步地,在步骤S2中,还需将所述卷积神经网络在类似领域的大规模的图像数据集上进行预训练,并保留卷积层与池化层的参数作为初始化,全连接层则随机初始化。进一步地,所述步骤S3的具体步骤如下:所述步骤S3的具体步骤如下:S31.从训练集采样得到原始图像x与标注图像y,对于训练集的每张图像xi,所述状态生成子模块将原始图像与初始像素类别决策矩阵拼接,生成得到初始状态s1;S32.使用分级策略,确定本轮次的分块大小m,每个分块内的像素在类别决策时选择同一个动作,且每张图像每轮次的分块大小m逐渐减小,使每张图像从粗略到精细进行分割;S33.当进入第一轮次时,直接执行步骤S34;当进入第n(n≥2)轮次时,判断每个分块是否处于边界或图像的最后一个分块;若是,则执行步骤S34,否则保留当前分块在上一轮的类别决策,直接将状态移动到下一分块,重复执行步骤S33;S34.所述像素类别选择子模块根据ε-greedy策略选择动作a,以ε的概率随机选择动作aτ,以1-ε的概率根据所述图像特征提取子模块输出的Q值选择动作aτ=maxaQ(sτ,a;θ);其中,sτ表示当前状态,θ表示所述图像特征提取子模块的卷积神经网络参数;S35.在步骤S34之后,所述状态生成子模块根据当前状态sτ与像素类别选择动作aτ得到新状态sτ+1;S36.在步骤S35之后,所述奖励生成子模块根据新状态sτ+1的像素类别决策部分与图像xi对应的标注图像yi,生成奖励rτ;所述奖励rτ包括分割效果奖励r_baseτ和分割比例奖励r_ratioτ;S37.在步骤S36之后,将(sτ,aτ,rτ,sτ+1)存储在经验回放存储器Ω中;若经验回放存储器Ω中的记录达到一定数量后,每个训练步骤从经验回放存储器Ω中采样,采样的每条记录记为(sj,aj,rj,sj+1);对于每条记录,计算目标值yj和损失函数L(θ),并更新卷积神经网络参数θ,然后执行步骤S38;若所述经验回放存储器Ω中的记录没有达到一定数量,则执行步骤S38;S38.判断目前该分块是否为本图像的最后一个分块,若是,则进入步骤S39;否则,将状态移动到下一分块,然后回到步骤S33;S39.若分块大小m不等于1,则回到步骤S32,进入下一轮次;若分块大小m等于1,则使用下一张图像从步骤S31开始训练模型。进一步地,在步骤S37中,所述目标值yj的计算公式为:式中,rj表示第j条记录的奖励值,sj+1表示第j条记录的新状态,γ表示折扣因子,θ表示卷积神经网络参数,Q(s,a;θ)表示卷积神经网络输出的Q值;所述损失函数L(θ)的计算公式为:L(本文档来自技高网...

【技术保护点】
1.一种基于强化学习和迁移学习的图像语义分割模型,其特征在于,包括:/n预处理模块,用于对原始图像进行预处理;/n感知模块,用于强化学习中的环境部分;/n像素类别决策模块,用于强化学习中的智能体部分;/n所述预处理模块、感知模块、像素类别决策模块顺次通信连接。/n

【技术特征摘要】
1.一种基于强化学习和迁移学习的图像语义分割模型,其特征在于,包括:
预处理模块,用于对原始图像进行预处理;
感知模块,用于强化学习中的环境部分;
像素类别决策模块,用于强化学习中的智能体部分;
所述预处理模块、感知模块、像素类别决策模块顺次通信连接。


2.根据权利要求1所述的基于强化学习和迁移学习的图像语义分割模型,其特征在于,所述感知模块包括:
状态生成子模块,用于根据精细或粗略等级生成不同的状态;
奖励生成子模块,用于生成奖励;
所述状态生成子模块与奖励生成子模块、预处理模块通信连接。


3.根据权利要求2所述的基于强化学习和迁移学习的图像语义分割模型,其特征在于,所述奖励生成子模块生成的奖励包括分割效果奖励和分割比例奖励。


4.根据权利要求3所述的基于强化学习和迁移学习的图像语义分割模型,其特征在于,所述像素类别决策模块包括:
图像特征提取子模块,用于对输入的状态提取特征;
像素类别选择子模块,用于根据Q值选择像素类别决策作为动作输出;
所述图像特征提取子模块与像素类别选择子模块、状态生成子模块通信连接,所述像素类别选择子模块与状态生成子模块通信连接。


5.根据权利要求4所述的基于强化学习和迁移学习的图像语义分割模型,其特征在于,所述图像特征提取子模块包括特征提取网络和经验回放存储器Ω;所述特征提取网络为卷积神经网络,其输出层的节点对应每个像素类别选择动作的Q值,所述经验回放存储器Ω用于对所述特征提取网络的参数进行训练。


6.一种应用于权利要求5所述的基于强化学习和迁移学习的图像语义分割模型的建模方法,其特征在于,包括以下步骤:
S1.通过所述预处理模块对图像数据集进行预处理,将原始图像剪裁成固定大小,并随机旋转,得到数据集<图像X,标注图像Y>,划分训练集和测试集;
S2.利用迁移学习对所述图像特征提取子模块的卷积神经网络参数θ进行初始化;
S3.利用强化学习的深度Q网络框架,使用所述训练集,对所述图像特征提取子模块的卷积神经网络进行训练;
S4.使用步骤S3中训练好的参数对测试集图像的分割结果进行预测。


7.根据权利要求6所述的基于强化学习和迁移学习的图像语义分割模型的建模方法,其特征在于,在步骤S2中,还需将所述卷积神经网络在类似领域的大规模的图像数据集上进行预训练,并保留卷积层与池化层的参数作为初始化,全连接层则随机初始化。


8.根据权利要求7所述的基于强化学习和迁移学习的图像语义分割模型的建模方法,所述步骤S3的具体步骤如下:
S31.从训练集采样得到原始图像x与标注图像y,对于训练集的每张图像xi,所述状态生成子模块将原始图像与初始像素类别决策矩阵拼接,生成得到初始状态s1;
S32.使用分级策略,确定本轮次的分块大小m,每个分块内的像素在类别决策时选择同一个动作,且每张图像每轮次的分块大小m逐渐减小,使每张图像从粗略到精细进行分割;
S33.当进入第一轮次时,直接执行步骤S34;当进入第n(n≥2)轮次时,判断每个分块是否处于边界或图像的最后一个分块;若是,则执行步骤S34,否则保留当前分块在上一轮的类别决策,直接将状态移动到下一分块,重复执行步...

【专利技术属性】
技术研发人员:韩佳琪卓汉逵
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1