一种基于离散余弦变换的图像语义分割方法及装置制造方法及图纸

技术编号:23213676 阅读:45 留言:0更新日期:2020-01-31 22:11
本申请公开了一种基于离散余弦变换的图像语义分割方法及装置,涉及计算机视觉领域。本发明专利技术的基于离散余弦变换的图像语义分割方法包括:将RGB图像转换为DCT表示;采用FCR重新排列DCT系数;将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割,所述改进的BiSeNet模型为:在BiSeNet模型的基础上删除若干下采样操作,并增加模型深度。本发明专利技术的基于离散余弦变换的图像语义分割装置包括图像转换模块、重排模块以及语义分割模块。本申请通过DCT操作将原始区域的RGB图像编码成为频域中的分量,能够避免图像解压缩带来的计算消耗和时间消耗。

A method and device of image semantic segmentation based on DCT

【技术实现步骤摘要】
一种基于离散余弦变换的图像语义分割方法及装置
本申请涉及计算机视觉领域,特别是涉及基于离散余弦变换的图像语义分割方法及装置。
技术介绍
深度学习模型已被证明在计算机视觉领域内取得了巨大的成功,例如图像语义分割、目标检测、视觉问答等等,其中最常用的模型为CNN(ConvolutionalNeuralNetworks,卷积神经网络)。在使用CNN模型对图像数据进行处理前,需要进行图像解压缩,这是由于在实际应用中图像一般被压缩为特征的编码格式以方便传输和储存,因此CNN模型训练的图像数据大多数都是RGB图像格式。但是图像解压缩会消耗大量的计算力,会降低模型训练的效率和速度,因此如何避免解压缩带来的计算消耗是一个值得考虑的问题。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的一个方面,提供了一种基于离散余弦变换的图像语义分割方法,所述方法包括:将RGB图像转换为DCT(DiscreteCosineTransform,离散余弦变换)表示;采用FCR(Frequenc本文档来自技高网...

【技术保护点】
1.一种基于离散余弦变换的图像语义分割方法,包括:/n将RGB图像转换为DCT表示;/n采用FCR重新排列DCT系数;/n将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割,所述改进的BiSeNet模型为:在BiSeNet模型的基础上删除若干下采样操作,并增加模型深度。/n

【技术特征摘要】
1.一种基于离散余弦变换的图像语义分割方法,包括:
将RGB图像转换为DCT表示;
采用FCR重新排列DCT系数;
将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割,所述改进的BiSeNet模型为:在BiSeNet模型的基础上删除若干下采样操作,并增加模型深度。


2.根据权利要求1所述的方法,其特征在于,所述的将RGB图像转换为DCT表示包括:
将RGB图像转换为YCbCr表示;
对YCbCr表示数据进行DCT操作;
采用量化矩阵量化DCT系数;
通过熵编码对量化后的DCT系数进行编码。


3.根据权利要求2所述的方法,其特征在于,所述的对YCbCr表示数据进行DCT操作包括:
将YCbCr的每个通道均划分为8×8大小的像素块,并且将每个像素点的像素值都减去128,然后采用下述公式进行DCT操作:



其中,αu和αv是归一化因子,gx,y是(x,y)处的像素值,Gu,v是(u,v)处的DCT系数,0≤u,v<8。


4.根据权利要求3所述的方法,其特征在于,所述的采用FCR重新排列DCT系数包括:
将每个维度块(8,8,1)重新排列为(1,1,64)。


5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述的在BiSeNet模型的基础上删除若干下采样操作,并增加模型深度包括:
在BiSeNet模型的基础上删除一半的下采样操作,并增加五个卷积层。


6.一种基于离散余弦变换的图像语义分割装置,包括:<...

【专利技术属性】
技术研发人员:樊硕
申请(专利权)人:北京影谱科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1