一种基于语言驱动的全像素双核图像散焦模糊去除方法技术

技术编号：41156856 阅读：7 留言：0更新日期：2024-04-30 18:20

本发明专利技术提出的一种基于语言驱动的全像素双核图像散焦模糊去除方法，属于计算摄像与图像处理技术领域。本方法提出使用对比语言图像预训练模型作为双像素图像的模糊图估计模块，通过该模块给出估计的模糊图，然后在模糊先验注意力模块的引导下恢复清晰图像；其次，依托于模糊估计模块，提出了模糊加权损失和模糊感知损失，模糊加权损失利用模糊估计模块生成的模糊图，对图像中不同的区域采用不同的损失权重，这使得网络能够专注于修复模糊更严重的区域；模糊感知损失使用模糊估计模块检测去模糊图像中的残留模糊。本方法能够能够获得显式和准确的模糊图，从而更好地处理空间分布不均匀的模糊图像，同时能够保留模糊图像的清晰区域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术提出了一种基于语言驱动的全像素双核图像散焦模糊去除方法，属于计算摄像与图像处理。

技术介绍

1、图像在当今社会中扮演着极为重要的角色，其重要性跨足了各种领域，涵盖了计算机、通信、媒体、医疗、科学研究以及艺术等各个领域。然而在计算机视觉应用中，视觉算法的性能往往会受到低质量退化图像的影响，例如图像模糊。图像模糊是在许多摄影和图像采集情境中普遍存在的问题。这些模糊现象可以由多种因素引起，包括摄像机晃动、物体或相机运动造成的运动模糊、镜头浅景深造成的散焦模糊和大气湍流、传感器噪声等。这些因素导致图像中的细节丧失、轮廓不清晰，降低了图像的质量和信息可用性。

2、由于图像曝光的机制，散焦模糊是各种图像模糊中最难以避免的。在相机光圈优先模式下，光圈保持不变，而快门速度可根据需要来调整，以控制光线通过镜头的时间。然而，这种方法存在一个缺点，即如果相机和/或拍摄场景中的物体在快门打开期间发生移动，慢快门速度可能导致运动模糊。与之相反，在快门优先模式下，快门速度保持不变，而光圈的大小可以调整。然而，可变光圈的缺点是较大的光圈会导致景深较浅，这会导致景深之外的场景区域出现离焦模糊。在许多计算机视觉应用中，需要大光圈，但仍然需要整个图像处于焦点状态。一个典型的例子是自动驾驶汽车上的摄像头或地图环境的汽车上的摄像头，这些摄像头必须使用固定的快门速度，但唯一获取足够光线的方式是以牺牲焦点为代价，即引入散焦模糊。

3、我们的目标是减少全像素双核(dual-pixel，dp)图像中的散焦模糊，使图像更加清晰。dp传感器在传感

4、本专利技术提出了一种基于语言驱动的全像素双核图像散焦模糊去除方法，能有效实现各种场景和设备下的全像素双核散焦模糊图像的恢复，并且保护图像的清晰区域不被破坏，适用于自动驾驶、户外监控和摄影等领域。

技术实现思路

1、本专利技术的目的是为了解决现有的全像素双核图像散焦模糊去除方法中存在的模糊去除不彻底、难以去除非均匀模糊等问题，创造性地提出一种基于语言驱动的全像素双核图像散焦模糊去除方法。

2、本专利技术的创新点在于：

3、首先，该方法提出使用对比语言图像预训练模型(contrastive language-imagepre-training,clip)作为双像素图像的模糊图估计模块。通过该模块给出估计的模糊图，然后在模糊先验注意力模块的引导下我们从全像素双核模糊图像对恢复清晰图像。由于能够获得显式和准确的模糊图，我们的模型能够更好处理空间分布不均匀的模糊图像，同时能够保留模糊图像的清晰区域。

4、其次，依托于我们的模糊估计模块，我们提出了模糊加权损失和模糊感知损失。模糊加权损失利用模糊估计模块生成的模糊图，对图像中不同的区域采用不同的损失权重，这使得我们的网络能够专注于修复模糊更严重的区域。模糊感知损失使用模糊估计模块检测去模糊图像中的残留模糊，这能够进一步的提升输出的去模糊图像的质量。

5、本专利技术的目的是通过以下技术方案实现的。

6、一种基于语言驱动的全像素双核图像散焦模糊去除方法，包括以下步骤：

7、步骤1：获取全像素双核散焦模糊图像及其对应的清晰图像，并进行数据增强，数据增强能够有效扩充数据集，提升泛化性能。本专利使用的数据增强方式包括水平翻转和旋转。

8、步骤2：搭建基于clip模型的模糊估计模块，该模块输入全像素双核散焦模糊图像或者单幅模糊图像并输出对应模糊图，该模糊图反映出不同区域的模糊程度。

9、步骤2.1：对于输入的dp图像对，首先对其估计模糊图，然后用模糊图引导去模糊主干进行去模糊。dp模式的模糊图估计模块接受dp图像对并输出模糊图。

10、步骤2.1.1：图像编码。考虑到clip的图像编码器是用单目rgb图像训练的视觉-文本对齐模型，需要设计一个函数η()将dp图像对(bl和br)映射为单目图像。为了得到图像嵌入，将左视图bl与水平翻转的右视图沿η()的宽度轴拼接起来，然后得到图像特征。为了获得模糊图估计中的密集嵌入，clip图像编码器中的最后一层池化层被去除，然后通过输入dp图像得到嵌入矩阵fs。表示如下：

11、

12、fs的每个像素都编码了η(bl,br)中对应区域的局部语义信息，imageencoder表示图像编码器。

13、步骤2.1.2：文本编码。文本编码器用于将描述对称的提示符ps的语义嵌入到文本嵌入中，具体如下：

14、ts＝τехtεnсoder(ps). (2)

15、其中ts表示描述对称的文本嵌入，textencoder表示文本编码器。

16、步骤2.1.3：模糊图估计。设f(i,j)是f在位置(i,j)的c维嵌入。如果(i,j)处的像素是模糊的，那么图像嵌入f(i,j)和基于对称语义的文本嵌入ts应该是相似的。通过计算ts和fs的相似度得到反映不同模糊程度的模糊图。为了将fs转换为与bl和br相同的宽高比，本专利基于η(bl,br)的变换对相应的逐像素特征进行平均，得到α(f)，即dp对的中心视图。表示如下：

17、

18、其中，ws表示图像宽度。

19、然后模糊图生成公式如下：

20、

21、其中，σ()将余弦相似度sim()输出归一化到概率空间，ts是描述对称性的提示符的文本嵌入。对于值越大表示该区域像素越清晰。因此，模糊图被定义为然后mf被采样到与dp对相同的分辨率，得到dp模式的模糊图mdp。

22、步骤2.2：模糊模式的模糊图估计模块，其接受单张图像对并输出模糊图，该模块主要用于检测输出的去模糊图像中存在的残留模糊。

23、步骤2.2.1：图像编码。与步骤2.1.1相似，clip图像编码器中的最后一层池化层被去除，然后通过输入图像得到嵌入矩阵fb。表示如下：

24、fb＝imageεnсoder(b). (5)

25、fb的每个像素都编码了模本文档来自技高网...

【技术保护点】

1.一种基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，所述步骤2中基于CLIP模型的模糊估计模块输入全像素双核散焦模糊图像时，具体步骤如下：

3.如权利要求2所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，基于CLIP模型的模糊估计模块输入单幅模糊图像时，具体步骤如下：

4.如权利要求1所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，所述步骤3中的去模糊主干总共有4个尺度，每个尺度对应的编码器和解码器都有跳跃连接线，最后通过一个卷积层将特征图映射到预测的无模糊图像。

5.如权利要求1所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，所述步骤5的具体计算方式如下：

6.如权利要求1所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，所述步骤6中的模糊感知损失函数为：

7.如权利要求1至6任一所述的基于语言驱动的全像素双核图像散焦模

...

【技术特征摘要】

1.一种基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，所述步骤2中基于clip模型的模糊估计模块输入全像素双核散焦模糊图像时，具体步骤如下：

3.如权利要求2所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，基于clip模型的模糊估计模块输入单幅模糊图像时，具体步骤如下：

4.如权利要求1所述的基于语言驱动的全像素双核图像散焦模糊去除方法，其特征在于，所述步骤3中的去模糊主干总共有4个尺度，每个尺度...

【专利技术属性】
技术研发人员：潘利源，杨浩，杨焱，杨宗霖，刘恩齐，张睿堃，董静涛，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人