基于强化学习的图像处理方法及模型训练方法、装置制造方法及图纸

技术编号：27007597 阅读：8 留言：0更新日期：2021-01-08 17:12

本发明专利技术公开了一种基于强化学习的图像处理方法及模型训练方法、装置。用于解决相关技术中基于强化学习模型进行图像增强效果仍需改进的问题。本发明专利技术中，根据全局反馈信息和局部反馈信息确定瞬时反馈信息，使得瞬时反馈信息中涵盖了图像整体的处理效果，以及局部细节的处理效果，由此能够全面的概括图像处理效果，进而训练图像处理模型时使得图像处理模型更能够给出合理的处理策略，以此根据更为合理的处理策略能够更好的进行图像效果增强处理。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的图像处理方法及模型训练方法、装置
本专利技术涉及人工智能
，特别涉及一种基于强化学习的图像处理方法及模型训练方法、装置。
技术介绍
随着智能手机的普及和拍照设备的不断升级，用户可以很轻松地获得照片，来记录生活中精彩的瞬间。然而，目前的手机为了满足方便携带的特性，在相机硬件上不可避免地会做出一些妥协，这导致了智能手机拍摄的图像质量与数码单反相机等先进设备相比有很大差距。智能手机的相机中最常见的硬件限制是缺少大光圈镜头和光电二极管组成的小型传感器，从而造成手机拍摄的图像与单反等先进设备拍摄的图像相比有进光量不足、色彩不饱满、噪声多、对比度较差等缺点。目前智能手机市场上新发布的产品大多主打手机摄影功能的提升，在硬件提升方面花费很多精力，比如增加越来越多不同功能的摄像头来弥补手机摄影硬件的缺陷，这需要提升手机的成本而且会影响手机的美观和便携性。为了克服这种固有的硬件限制，因此从软件方面弥补硬件缺陷实现对于拍摄的图像的处理的方式更加高效和经济。相关技术中提出了采用强化学习的神经网络来增强图像效果，以期达到图像处理专家水平的图像处理效果。例如，使用强化学习算法优化过度曝光或曝光不足的照片。该方法中通过将照片分成不同语义块来平衡曝光，调整每个片段的曝光值，最后将不同部分融合。然而，结果显示，该方法一旦分割结果处理不好，仅调整曝光无法达到好的效果。分割问题仍然是个未解决的问题，无法处理全部的复杂场景，比如噪声干扰、遮挡等问题，用一个未解决领域的方法去解决另一个领域的问题，显然会造成一些不足。再例如...

【技术保护点】
1.一种基于强化学习的图像处理模型训练方法，所述图像处理模型包括第一网络以及第二网络，其特征在于，所述方法包括：/n对目标样本图像进行特征提取，得到所述目标样本图像的特征图；/n将所述图像特征分别输入所述第二网络和所述第一网络，得到所述第二网络输出的所述目标样本图像中各像素点的处理方式，以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息；/n利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像；/n比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；/n采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。/n

【技术特征摘要】
1.一种基于强化学习的图像处理模型训练方法，所述图像处理模型包括第一网络以及第二网络，其特征在于，所述方法包括：
对目标样本图像进行特征提取，得到所述目标样本图像的特征图；
将所述图像特征分别输入所述第二网络和所述第一网络，得到所述第二网络输出的所述目标样本图像中各像素点的处理方式，以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息；
利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像；
比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；
采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。

2.根据权利要求1所述的方法，其特征在于，所述图像处理模型还包括判别器网络，且所述第二网络和所述判别器网络构成对抗网络，所述方法还包括：
将所述目标样本图像和所述优化样本图像分别输入所述判别器网络，得到与所述目标样本图像对应的第一判别结果以及与所述优化样本图像对应的第二判别结果；
所述比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的全局反馈信息，包括：
确定所述第一判别结果和所述第二判别结果之间的差异度作为所述全局反馈信息。

3.根据权利要求1所述的方法，其特征在于，所述目标样本图像对应有配对图像，所述比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的局部反馈信息，包括：
对每个像素点，获取所述目标样本图像和所述优化样本图像中所述像素点的颜色值；
对所述像素点在所述目标样本图像和所述优化样本图像中的颜色值进行比较，得到所述像素点的颜色差异度作为所述像素点的所述局部反馈信息。

4.根据权利要求2所述的方法，其特征在于，所述判别器网络的训练集中包括所述目标样本图像以及非配对图像，所述非配对图像与所述目标样本图像的图像内容不同。

5.根据权利要求1所述的方法，其特征在于，所述第一网络的目标函数为：

其中，
其中，训练目标为不断缩小值；m×n表示述目标样本图像包括的总像素点数；γ表示预设的衰减系数；表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；表示当前时间步第(i，j)个像素点的所述瞬时反馈信息；表示基于当前时间步得到的第(i，j)个像素点的所述期望累积反馈信息。

6.一种图像处理方法，其特征在于，所述方法包括：
对待处理图像进行特征提取，得到所述待处理图像的特征图；
将所述...

【专利技术属性】
技术研发人员：杨幸潮，章佳杰，郑云飞，于冰，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人