基于双空间归一化变换器的图像描述生成方法技术

技术编号:37996801 阅读:19 留言:0更新日期:2023-06-30 10:10
本发明专利技术涉及图像处理技术领域,具体涉及一种基于双空间归一化变换器的图像描述生成方法,包括将原始低动态范围图像由RGB颜色空间转换到HSV颜色空间,分离出低动态范围图像的亮度分量和饱和度分量;分别对亮度分量和饱和度分量进行处理,得到新亮度分量和新饱和度分量;融合新亮度分量、新饱和度分量和色调分量得到HSV空间的高动态范围图像,得到融合图像;将融合图像转化至RGB颜色空间得到最终高动态范围图像;提取最终高动态范围图的图像显著区域特征和视觉常识特征;将图像显著区域特征和视觉常识特征输入双空间归一化变换器,得到图像描述语句,解决了现有的图像描述的方法的精确度较低的问题。确度较低的问题。确度较低的问题。

【技术实现步骤摘要】
基于双空间归一化变换器的图像描述生成方法


[0001]本专利技术涉及图像处理
,尤其涉及一种基于双空间归一化变换器的图像描述生成方法。

技术介绍

[0002]图像描述生成是一个多模态任务,旨在自动生成图像中视觉内容的自然语言描述。它不仅要求了模型对视觉和语言的理解,而且还要有能力对齐跨模态表示。图像描述生成模型广泛地使用了编码器

解码器范式,其中卷积神经网络(ConvolutionalNeuralNetwork,CNN)被用来编码视觉特征,而循环神经网络(RecurrentNeuralNetwork,RNN)被用来将CNN的输出解码为自然句子。此外,基于注意力的方法探索了视觉表征和自然句子之间的互动,并关注突出的信息。具体来说,注意力机制通过生成每个输入图像的空间投影来指导每个单词的解码,以此提高性能。随着Transformer的发展,在图像描述生成模型中,自注意力模块在探索视觉特征和文字之间的相关性方面发挥了重要作用。
[0003]然而,传统的基于Transformer的框架在图像描述生成中考虑图像中存在很大本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双空间归一化变换器的图像描述生成方法,其特征在于,包括以下步骤:将原始低动态范围图像由RGB颜色空间转换到HSV颜色空间,分离出低动态范围图像的亮度分量和饱和度分量;分别对所述亮度分量和所述饱和度分量进行处理,得到新亮度分量和新饱和度分量;融合所述新亮度分量、所述新饱和度分量和色调分量得到HSV空间的高动态范围图像,得到融合图像;将所述融合图像转化至RGB颜色空间得到最终高动态范围图像;提取所述最终高动态范围图的图像显著区域特征和视觉常识特征;设计一个适应该特征的双空间归一化变换器,该模型为一个新的双空间归一化Transformer;将所述图像显著区域特征和所述视觉常识特征输入双空间归一化变换器,得到图像描述语句。2.如权利要求1所述的基于双空间归一化变换器的图像描述生成方法,其特征在于,所述提取所述最终高动态范围图的图像显著区域特征的模型为Faster R

CNN模型。3.如权利要求2所述的基于双空间归一化变换器的图像描述生成方法,其特征在于,所述提取所述最终高动态范围图的视觉常识特征的模型为VC R

CNN模型。4.如权利要求3所述的基于双空间归一化变换器的图像描述生成方法,其特征在于,所述对所述亮...

【专利技术属性】
技术研发人员:杨有胡峻滔尚晋
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1