【技术实现步骤摘要】
一种面向跨模态通信的图像超分辨率重建方法
[0001]本专利技术属于视觉信号的超分辨率重建
,具体的说是涉及一种面向跨模态通信的图像超分辨率重建方法。
技术介绍
[0002]随着无线通信和多媒体通信技术的快速发展,人类的视听需求得到极大满足,开始追求更多元化、更丰富的体验。当触觉信号与传统的视听信号相结合时,多模态服务出现,它可以提供更细粒度的交互和沉浸式体验。多项研究发现在线上多模态服务场景中,人们能够通过高分辨率的视觉信号和高保真的触觉信号提高对产品的感知和交互体验。例如,在网络购物中,消费者可以通过触摸和观察获得产品细节、内在感知质地、硬度等特性的详细信息。为了支持多模态服务,跨模态通信应运而生,其通过利用不同模态间的相关性确保多个模态之间的协同传输和处理。然而,受限的带宽和模态间竞争的存在使现有的跨模态通信方案很难实施,这将导致用户的沉浸式体验下降,特别是不满意的视觉体验。
[0003]具体来说,一方面,高保真的视觉信号是用户沉浸式体验的重要保障,然而由于受限的带宽,在线多媒体通信服务中难以传输如此高分 ...
【技术保护点】
【技术特征摘要】
1.一种面向跨模态通信的图像超分辨率重建方法,其特征在于:所述图像超分辨率重建方法包括以下步骤:步骤1、利用完整的高分辨率视觉信号,进行高分辨率视觉信号的编码和解码,通过编码步骤训练高分辨率视觉信号的编码网络,并得到高分辨率视觉信号的编码特征,通过解码步骤训练高分辨率视觉信号的解码网络,用于为之后的视觉信号超分辨率重建模型提供支撑;步骤2、设计一个触觉辅助的视觉信号超分辨率重建HaSR模型;超分辨率重建HaSR模型为:从终端采集到视觉信号和触觉信号之后,在边缘节点对视觉信号进行下采样从而得到低分辨率视觉信号,利用预训练的广泛使用的编码网络对低分辨率视觉信号和相应的触觉信号进行初步的特征提取;利用模态内的鉴别性和模态间的一致性,通过映射网络来降低模态间的差异,挖掘不同模态的相关性来弥补模态间的语义鸿沟,从而基于编码提取的初步特征得到具有语义鉴别和语义关联的映射特征,而后将得到的映射特征经过归一化之后通过信道模型,从而用于下一步的特征融合;根据低分视觉信号的映射特征和触觉信号的映射特征以及获得的高分辨率视觉信号的编码特征,结合生成对抗网络强大的数据拟合能力,得到融合特征;最后,将得到的融合特征输入高分辨率视觉信号的生成网络,实现高分辨率视觉信号的重建;步骤3、利用模型优化算法对步骤2设计的HaSR模型进行训练,最终得到最优的模型参数,用于之后的测试阶段;步骤4、将待测的成对的低分辨率视觉信号和触觉信号输入最优的HaSR模型,最优的HaSR模型用于提取低分辨率视觉信号和相应的触觉信号的特征并进行融合,利用融合后的特征生成所需的高分辨率视觉信号。2.根据权利要求1所述的一种面向跨模态通信的图像超分辨率重建方法,其特征在于:步骤1具体包括如下步骤:步骤1
‑
1:对于训练数据集其包含配对的触觉、低分辨视觉信号和高分辨率视觉信号,N为配对的视觉信号和触觉信号的数量,d
i
={h
i
,l
i
,t
i
}分别代表高分辨率视觉信号、低分辨率视觉信号和对应的触觉信号,将第i个高分辨率视觉信号h
i
输入高分辨率视觉信号的编码网络,提取视觉信号的编码特征z
h
;步骤1
‑
2:把得到的高分辨率视觉信号的编码特征z
h
输入到由生成对抗网络构成的高分辨率视觉信号的解码器中,而后把解码器重建的高分辨率视觉信号输入高分辨率视觉信号的鉴别器中,通过联合训练编码器和解码器,并用重构损失和鉴别损失来优化,最终学习到高分辨率视觉信号的编码特征,以及对应的解码网络,定义的损失函数为:L
pre
=L
rec
+αL
pre
‑
adv
,其中α是一个系数,用来调整不同损失的比例,第一项损失是重构损失:其中(C,H,W)是高分辨率视觉信号的尺寸,G
h
代表相应的高分辨率视觉信号的解码网
络,代表相应的编码网络得到的高分辨率视觉信号的编码特征,||
·
||1代表相应的L1范数,第二项是生成对抗网络的损失,具体的损失函数为:其中E(*)表示分布函数的期望值,p(z
h
)表示高分图像编码特征的分布,p(h)代表真实高分辨率图像的分布,D
h
代表相应的高分辨率视觉信号的鉴别网络,用来完成对重建的高分辨率视觉信号的判断,θ
gh
和θ
dh
分别代表相应的高分辨率视觉信号的生成器和鉴别器的参数,通过最小化L
pre
得到最优的高分辨率视觉信号的编码网络以及对应的高分辨率视觉信号的编码特征,对应的解码网络和相应的高分辨视觉信号的鉴别网络。3.根据权利要求1所述的一种面向跨模态通信的图像超分辨率重建方法,其特征在于:步骤2包括如下步骤:步骤2
‑
1:低分辨率视觉信号和对应的触觉信号的初步特征提取,基于训练数据集中存在的配对的低分辨率视觉信号l
i
和触觉信号h
i
,利用深度神经网络,完成低分辨率视觉信号和触觉信号初步的特征提取,获得相应的低分辨率视觉信号的编码特征f
l
和对应的触觉信号编码特征f
t
;步骤2
‑
2:基于获得的低分辨率视觉信号的编码特征f
l
和对应的触觉信号编码特征f
t
,建立一个特征映射网络,来有效的降低模态间的异质性差异,从同模态和跨模态两个角度来学习模态内的鉴别表示和模态间的一致表示,并最终获得映射特征,其包括低分辨率视觉信号的映射特征z
l
和触觉信号的映射特征z
t
,之后把获得的映射特征输入信道模型,并在主终端接收之后执行对应的特征融合步骤;跨模态的语义相关性学习:选用三元组损失来进行跨模态的语义相关性学习,经过映射网络的学习达到下述效果,即对来自同一类别的低分辨率视觉信号特征和触觉信号特征来说,他们之间的距离应该靠近,对来自不同类别的低分辨率视觉信号特征和触觉信号特征来说,他们之间的距离应该远离;定义如下的损失函数:征来说,他们之间的距离应该远离;定义如下的损失函数:其中θ
l
和θ
t
分别代表对应的低分辨率视觉信号映射网络和触觉信号的映射网络的参数,p和q代表了不同的类别,N代表相应的低分辨率视觉信号和触觉信号的实例的数量,σ代表相应的阈值,L2=||
·
||2代表相应的L2范数,语义相关性的总损失表示为上述两者的和,即为:同模态内的鉴别性学习:在保障语义相关性的同时,有效的解决同模态内的语义鉴别问题,即对同一模态内的样本,同属于一个类别的样本距离更近,属于不同类别的样本距离更远,通过在映射网络之后加一个公共分类器来完成,具体的损失表示如下:其中,p
i
(z)代表分类器预测的概率分布,y
i
是真实的标签,θ
c
代表相应的公共分类器的
参数;经过上述处理之后,把得到的低分辨率视觉信号的映射特征z
l
和触觉信号的映射特征z
t
归一化之后输入信道模型;步骤2
‑
3:经过信道的传输之后,在主终端获得了相应的含噪声的低分辨率视觉信号的映射特征z
l
‑
n
和触觉信号的映射特征z
t
‑
n
,利用生成对抗网络拟合数据分布的能力,选用其来完成特征融合任务,其中z
h
被视为真实样本,z
l
‑
n
和z
t
‑
n
被视为生成器的输入,z
m
代表获得的融合特征,定义的融合网络的损...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。