一种图像处理设备和方法技术

技术编号:34074539 阅读:8 留言:0更新日期:2022-07-11 17:19
一种根据输入图像序列形成输出图像序列的图像处理器,其特征在于,所述图像处理器用于实现经过训练的人工智能模型,所述模型被训练为满足对所述输入图像序列的递归处理的约束,选择的所述约束必须稳定进行所述递归处理。因此,所提出的方法可以实现以稳定方式全局地跨图像执行所述递归处理所需的所述矩阵积的高效计算。积的高效计算。积的高效计算。

【技术实现步骤摘要】
【国外来华专利技术】一种图像处理设备和方法


[0001]本专利技术涉及图像处理,尤其涉及在保持全局稳定性的同时对图像序列进行递归处理。

技术介绍

[0002]去噪、去马赛克或超分辨率等低层计算机视觉问题通常是在单帧基础上处理的。给定噪声图像、马赛克图像或低分辨率图像作为输入,以监督方式训练的卷积神经网络(convolutional neural network,CNN)处理图像以生成相应的去噪、去马赛克或高分辨率图像作为输出。用于突发处理的多帧方法越来越受关注,这种方法可以通过利用序列图像中固有的时序一致性来产生明显更好的结果。
[0003]有两种主要的突发处理方法。可以同时处理突发中的所有帧,也可以用递归方式逐个处理。以递归方式,帧的处理受先前帧的处理的影响。这种称为递归处理的方法特别富有前景,原因有三个。
[0004]第一个原因在于,它以合理的计算成本提供了良好的性能。第二个原因在于,单帧架构可以轻松转换为多帧架构,只需添加递归连接即可。第三个原因在于,对长度为约10至20帧的图像的突发训练的递归模型可直接用于处理长度为数百、数千或更多帧的视频序列。
[0005]但是,需要注意确保它们的稳定性。
[0006]通过构造,递归架构包含反馈循环:t时刻输入的处理受到t

1时刻输入处理的影响。当帧数较多时,递归方法更容易通过正反馈产生不稳定性。处理过程中的小的不一致或错误会在处理的每个阶段自行增加,直到变成大的错误或不一致,从而损害正被正确处理的图像部分。这样,大的输出会导致更大的输出,最终发展到无穷大。在实践中观察到,在几十或几百帧之后,一些递归架构出现不稳定性。当应用于视频数据时,这可能是递归架构的关键限制。
[0007]图1(a)示出了这种现象的两个示例,根据峰值信噪比(Peak Signal

to

Noise Ratio,PSNR)绘制两个递归去噪模型的性能图以测量质量,作为真实视频序列的帧数的函数。在帧20和帧300附近观察到急剧下降,对应于不稳定性的开始。最初通过PSNR测量的质量良好,高于28,但由于递归的不稳定性,第一模型(虚线102)的PSNR在帧20附近下降,第二模型(实线104)在帧300附近下降。
[0008]这些不稳定性导致最终覆盖整个输出图像的强烈伪影。对于一对模型图像106和108,去噪输出图像中的效果如图1(b)所示,其中去噪处理从左到右发生。观察到在第一模型的图像(顶部图像106)的中间形成不规则的白色和黑色斑块110。观察到在第二模型的图像(底部图像108)的右侧有围绕横条纹的黑色区域112。这些伪影往往会逐帧在局部增长,直到覆盖整个图像。
[0009]文献中有两种主要的递归架构,如图2所示。
[0010]第一种架构是帧递归(如以下文献中所述:Sajjadi等人,“帧循环视频超分辨率”,
CVPR,2018年),包括使用前一输出y
t
‑1来处理当前输入x
t
。前一输出帧作为输入反馈以帮助处理当前帧。该帧递归由图底部的虚线箭头202表示。
[0011]第二种架构是特征递归(如以下文献中所述:Godard等人著2018年ECCV《深度突发去噪》),包括分别在第1,
……
,L层使用先前的特征h
1t
‑1,
……
,h
lt
‑1来处理当前输入x
t
。在网络中的层或块的特征递归中,前一输出特征作为输入反馈到层或块以帮助处理当前帧。这些特征递归连接使用图顶部带有虚线箭头204a

c的三个循环来显示。
[0012]在10到20帧的短突发上,特征递归往往比仅帧递归的视频去噪性能更佳。以下文献中对视频超分辨率进行了类似的观察:2019年Fuoli等人著《基于递归隐含空间传播的高效视频超分辨率》,arXiv网站,。然而,Godard等人称其特征递归架构“在较长序列上具有不稳定性”。其中简要提到了这种不稳定性,但并没有对该问题进行解释和解决。
[0013]需要开发一种能够对任意长度的视频序列进行稳定的全局多帧递归处理的方法。

技术实现思路

[0014]根据一个方面,提供了一种根据输入图像序列形成输出图像序列的图像处理器,所述图像处理器用于实现经过训练的人工智能模型,所述模型被训练为满足对所述输入图像序列的递归处理的约束,选择的所述约束必须稳定进行所述递归处理。所述方法能够对图像序列进行稳定的递归处理。
[0015]可以使用卷积空间中与部分连接层之间的卷积的矩阵空间中的递归矩阵表示的等效物来执行所述递归处理。通过在卷积空间中进行运算,可以高效地执行所需的计算。
[0016]所述输入图像序列的所述递归处理可以发生在所述经过训练的人工智能模型的内部卷积上。这可以提高图像质量。
[0017]所述约束可以包括限定每个递归内部卷积的最大奇异值小于1的条件。通过施加该约束,可以确保所述递归处理是稳定的。
[0018]卷积空间中与在矩阵空间中所述卷积的所述递归矩阵表示的所述等效物可以是核张量K。所述核张量K可用于允许在卷积空间中比在矩阵空间中更高效且准确地执行计算。
[0019]通过将每个递归内部卷积的所述核张量K除以其相应的最大奇异值,可以在所述人工智能模型的所述训练的每个步骤中强制执行所述约束。通过执行该计算,可以在训练的每一步以高效方式施加所述图像序列的稳定递归处理所需的约束。
[0020]可以使用幂迭代法计算所述最大奇异值。使用所述幂迭代法计算所述最大奇异值提供了一种高效的方法来确定施加所述稳定性约束所需的值。
[0021]所述幂迭代法可以包括通过在卷积空间中执行等效计算K*u和K
T
*v来确定矩阵空间中矩阵积v=Wu和u=W
T
v的多次迭代,其中u和v分别表示随机初始向量和结果向量,W和W
T
分别表示所述卷积及其转置的双块循环矩阵表示,K和K
T
分别表示所述卷积的四维核张量和所述四维张量的运算。通过在卷积空间中执行所述等效计算,可以使用所述矩阵W的更小且更高效的表示来施加稳定所述输入图像序列的所述递归处理所需的约束。这又会提高过程效率,其中需要执行更少的计算即可通过稳定的方式成功处理所述图像。
[0022]所述四维张量K
T
的所述运算可以包括转置、反转和移位K,使得:K
Ti,j,k,l
=K
mod(n

i,n),mod(n

j,n),l,k
,其中i、j、k和l表示所述张量K
T
的维度,i和j在0至n

1的范围内,其中n
是所述输入图像序列的每个输入图像的高度和宽度,而k和l在0至m

1的范围内,其中m是输入和输出通道的数量。运算后的核张量K可成功允许在卷积空间中执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种根据输入图像序列形成输出图像序列的图像处理器(1104),其特征在于,所述图像处理器用于实现经过训练的人工智能模型,所述模型被训练为满足对所述输入图像序列的递归处理的约束,选择的所述约束必须稳定进行所述递归处理。2.根据权利要求1所述的图像处理器,其特征在于,使用卷积空间中与部分连接层之间的卷积的矩阵空间中的递归矩阵表示的等效物来执行所述递归处理。3.根据权利要求1或2所述的图像处理器,其特征在于,所述输入图像序列的所述递归处理发生在所述经过训练的人工智能模型的内部卷积上。4.根据前述权利要求中任一项所述的图像处理器,其特征在于,所述约束包括限定每个递归内部卷积的最大奇异值小于1的条件。5.根据前述权利要求中任一项所述的图像处理器,其特征在于,卷积空间中与在矩阵空间中所述卷积的所述递归矩阵表示的所述等效物是核张量K。6.根据权利要求5所述的图像处理器,其特征在于,通过将每个递归内部卷积的所述核张量K除以其相应的最大奇异值,在所述人工智能模型的所述训练的每个步骤中强制执行所述约束。7.根据权利要求4至6中任一项所述的图像处理器,其特征在于,使用幂迭代法计算所述最大奇异值。8.根据权利要求7所述的图像处理器,其特征在于,所述幂迭代法包括通过在卷积空间中执行等效计算K*u和K
T
*v来确定矩阵空间中矩阵积v=Wu和u=W
T
v的多次迭代,其中u和v分别表示随机初始向量和结果向量,W和W
T
分别表示所述卷积及其转置的双块循环矩阵表示,K和K
T
分别表示所述卷积的四维核张量和所述四维张量的运算。9.根据权利要求8所述的图像处理器,其特征在于,所述四维张量K
T
的所述运算包括转置、反转和移位K,使得:K
Ti,j,k,l
=K
mod(n

i,n),mod(n

j,n),l,k
其中i、j、k和l表示所述张量K
T
的维度,i和j在0至n

1的范围内,其中n是所述输入图像序列的每个输入图像的高度和宽度...

【专利技术属性】
技术研发人员:托马斯
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1