基于强化学习的图像处理方法及模型训练方法、装置制造方法及图纸

技术编号:27007597 阅读:8 留言:0更新日期:2021-01-08 17:12
本发明专利技术公开了一种基于强化学习的图像处理方法及模型训练方法、装置。用于解决相关技术中基于强化学习模型进行图像增强效果仍需改进的问题。本发明专利技术中,根据全局反馈信息和局部反馈信息确定瞬时反馈信息,使得瞬时反馈信息中涵盖了图像整体的处理效果,以及局部细节的处理效果,由此能够全面的概括图像处理效果,进而训练图像处理模型时使得图像处理模型更能够给出合理的处理策略,以此根据更为合理的处理策略能够更好的进行图像效果增强处理。

【技术实现步骤摘要】
基于强化学习的图像处理方法及模型训练方法、装置
本专利技术涉及人工智能
,特别涉及一种基于强化学习的图像处理方法及模型训练方法、装置。
技术介绍
随着智能手机的普及和拍照设备的不断升级,用户可以很轻松地获得照片,来记录生活中精彩的瞬间。然而,目前的手机为了满足方便携带的特性,在相机硬件上不可避免地会做出一些妥协,这导致了智能手机拍摄的图像质量与数码单反相机等先进设备相比有很大差距。智能手机的相机中最常见的硬件限制是缺少大光圈镜头和光电二极管组成的小型传感器,从而造成手机拍摄的图像与单反等先进设备拍摄的图像相比有进光量不足、色彩不饱满、噪声多、对比度较差等缺点。目前智能手机市场上新发布的产品大多主打手机摄影功能的提升,在硬件提升方面花费很多精力,比如增加越来越多不同功能的摄像头来弥补手机摄影硬件的缺陷,这需要提升手机的成本而且会影响手机的美观和便携性。为了克服这种固有的硬件限制,因此从软件方面弥补硬件缺陷实现对于拍摄的图像的处理的方式更加高效和经济。相关技术中提出了采用强化学习的神经网络来增强图像效果,以期达到图像处理专家水平的图像处理效果。例如,使用强化学习算法优化过度曝光或曝光不足的照片。该方法中通过将照片分成不同语义块来平衡曝光,调整每个片段的曝光值,最后将不同部分融合。然而,结果显示,该方法一旦分割结果处理不好,仅调整曝光无法达到好的效果。分割问题仍然是个未解决的问题,无法处理全部的复杂场景,比如噪声干扰、遮挡等问题,用一个未解决领域的方法去解决另一个领域的问题,显然会造成一些不足。再例如,如图1所示,为另一种基于强化学习的神经网络模型的结构示意图。对输入的图像,首先提取图像特征,然后将提取的图像特征分别输入到策略网络和价值网络。通过策略网络得到图像的处理策略,价值网络用于输出基于该处理策略的累积奖励和期望。在训练该神经网络时,通过计算样本图像和配对图像之间的均方损失(MeanSquaredError,MSE)来训练神经网络。然而,结果显示,对于有些图像,该处理方法得到的图像有时候会黯淡和模糊,影响了图像的整体视觉效果。综上所述,相关技术中基于强化学习模型得到的图像效果仍有待改进。
技术实现思路
本专利技术的目的是提供一种基于强化学习的图像处理方法及模型训练方法、装置,用于解决相关技术中基于强化学习模型得到的图像效果仍有待改进的问题。第一方面,本专利技术实施例提供了一种基于强化学习的图像处理模型训练方法,所述图像处理模型包括第一网络以及第二网络,所述方法包括:对目标样本图像进行特征提取,得到所述目标样本图像的特征图;将所述图像特征分别输入所述第二网络和所述第一网络,得到所述第二网络输出的所述目标样本图像中各像素点的处理方式,以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息;利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像;比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息,其中,对每个像素点,所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的,所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息,所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息;采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。在一些实施例中,所述图像处理模型还包括判别器网络,且所述第二网络和所述判别器网络构成对抗网络,所述方法还包括:将所述目标样本图像和所述优化样本图像分别输入所述判别器网络,得到与所述目标样本图像对应的第一判别结果以及与所述优化样本图像对应的第二判别结果;所述比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的全局反馈信息,包括:确定所述第一判别结果和所述第二判别结果之间的差异度作为所述全局反馈信息。在一些实施例中,所述目标样本图像对应有配对图像,所述比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的局部反馈信息,包括:对每个像素点,获取所述目标样本图像和所述优化样本图像中所述像素点的颜色值;对所述像素点在所述目标样本图像和所述优化样本图像中的颜色值进行比较,得到所述像素点的颜色差异度作为所述像素点的所述局部反馈信息。在一些实施例中,所述判别器网络的训练集中包括所述目标样本图像以及非配对图像,所述非配对图像与所述目标样本图像的图像内容不同。在一些实施例中,所述第一网络的目标函数为:其中,其中,训练目标为不断缩小值;m×n表示述目标样本图像包括的总像素点数;γ表示预设的衰减系数;表示下一时间步时第(i,j)个像素点的累计瞬时反馈信息;表示当前时间步第(i,j)个像素点的所述瞬时反馈信息;表示基于当前时间步得到的第(i,j)个像素点的所述期望累积反馈信息。在一些实施例中,所述第二网络的目标函数为:其中,其中,训练目标为不断缩小m×n表示所述目标样本图像包括的总像素点数;γ表示预设的衰减系数;表示当前时间步第(i,j)个像素点的累计瞬时反馈信息;表示下一时间步时第(i,j)个像素点的累计瞬时反馈信息;表示当前时间步第(i,j)个像素点的瞬时反馈信息;表示当前时间步由所述第二网络得出的第(i,j)个像素点的处理方式的选择概率;表示基于当前时间步得到的第(i,j)个像素点的所述期望累积反馈信息。在一些实施例中,对每个像素点,根据以下方法确定所述像素点的瞬时反馈信息:对所述像素点的所述全局反馈信息和所述局部反馈信息进行加权求和,得到所述像素点的瞬时反馈信息。在一些实施例中,所述判别器网络输出的判别结果的值域为连续取值区间。在一些实施例中,所述第一网络和所述第二网络符合优势动作评论模式的框架要求。在一些实施例中,所述处理方式包括以下中的至少一种操作:饱和度调整操作、亮度调整操作、直方图均衡化操作、局部色彩校正操作以及对比度调整操作。在一些实施例中,所述饱和度调整操作用于以当前饱和度为基准按第一比例增加饱和度或按第二比例降低饱和度;所述亮度调整操作用于以当前亮度为基准按第三比例增加亮度或按第四比例降低亮度;所述对比度调整操作用于以当前对比度为基准按第五比例增加对比度或按第六比例降低对比度。第二方面本专利技术还提供一种图像处理方法,所述方法包括:对待处理图像进行特征提取,得到所述待处理图像的特征图;将所述特征图输入第二网络,得到所述待处理图像中各像素点的处理方式;利用所述处理方式对所述待处理图像中的各像素点进行处理;其中,所述第二网络是根据目标样本图像中每个像素点的图像质量的期望累积反馈信息和瞬时反馈信息训练得到的;且对各像素点,所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的,所述全局反馈信息用于表示所述目标样本图像的图像质量的整体反馈信息,所述局部反本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的图像处理模型训练方法,所述图像处理模型包括第一网络以及第二网络,其特征在于,所述方法包括:/n对目标样本图像进行特征提取,得到所述目标样本图像的特征图;/n将所述图像特征分别输入所述第二网络和所述第一网络,得到所述第二网络输出的所述目标样本图像中各像素点的处理方式,以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息;/n利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像;/n比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息,其中,对每个像素点,所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的,所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息,所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息;/n采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。/n

【技术特征摘要】
1.一种基于强化学习的图像处理模型训练方法,所述图像处理模型包括第一网络以及第二网络,其特征在于,所述方法包括:
对目标样本图像进行特征提取,得到所述目标样本图像的特征图;
将所述图像特征分别输入所述第二网络和所述第一网络,得到所述第二网络输出的所述目标样本图像中各像素点的处理方式,以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息;
利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像;
比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息,其中,对每个像素点,所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的,所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息,所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息;
采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。


2.根据权利要求1所述的方法,其特征在于,所述图像处理模型还包括判别器网络,且所述第二网络和所述判别器网络构成对抗网络,所述方法还包括:
将所述目标样本图像和所述优化样本图像分别输入所述判别器网络,得到与所述目标样本图像对应的第一判别结果以及与所述优化样本图像对应的第二判别结果;
所述比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的全局反馈信息,包括:
确定所述第一判别结果和所述第二判别结果之间的差异度作为所述全局反馈信息。


3.根据权利要求1所述的方法,其特征在于,所述目标样本图像对应有配对图像,所述比较所述目标样本图像和所述优化样本图像,得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的局部反馈信息,包括:
对每个像素点,获取所述目标样本图像和所述优化样本图像中所述像素点的颜色值;
对所述像素点在所述目标样本图像和所述优化样本图像中的颜色值进行比较,得到所述像素点的颜色差异度作为所述像素点的所述局部反馈信息。


4.根据权利要求2所述的方法,其特征在于,所述判别器网络的训练集中包括所述目标样本图像以及非配对图像,所述非配对图像与所述目标样本图像的图像内容不同。


5.根据权利要求1所述的方法,其特征在于,所述第一网络的目标函数为:

其中,
其中,训练目标为不断缩小值;m×n表示述目标样本图像包括的总像素点数;γ表示预设的衰减系数;表示下一时间步时第(i,j)个像素点的累计瞬时反馈信息;表示当前时间步第(i,j)个像素点的所述瞬时反馈信息;表示基于当前时间步得到的第(i,j)个像素点的所述期望累积反馈信息。


6.一种图像处理方法,其特征在于,所述方法包括:
对待处理图像进行特征提取,得到所述待处理图像的特征图;
将所述...

【专利技术属性】
技术研发人员:杨幸潮章佳杰郑云飞于冰
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1