当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于视觉语言交互的视觉显著性预测方法及终端技术

技术编号:42496110 阅读:18 留言:0更新日期:2024-08-22 14:06
本发明专利技术公开一种基于视觉语言交互的视觉显著性预测方法及终端,所述方法包括:获取待处理的视频数据,根据所述视频数据生成语言特征和视觉特征;通过自我注意机制将所述语言特征和所述视觉特征进行视觉语言交互,得到增强语言特征和增强视觉特征;通过语言引导门注意机制融合所述增强语言特征和增强视觉特征得到层级视觉特征,根据层级视觉特征得到显著图。本发明专利技术通过从文本和视觉交互各自获取特征,并探索视觉特征和语言特征之间的相互作用,从语言特征角度和视频特征角度两方面捕捉更完整的高级语义线索,其视觉显著性相较现有技术具有更好的效果。

【技术实现步骤摘要】

本专利技术涉及图像处理,尤其涉及的是一种基于视觉语言交互的视觉显著性预测方法、终端及可读存储介质。


技术介绍

1、在大数据信息时代,大多数人每时每刻都处在以音视频为载体的数据海洋之中。受益于人类注意力机制,使用者总能够关注到大量数据中最重要的部分。在人类视觉感官系统,这样的注意力机制被称为视觉显著性。

2、基于对视觉显著性的模仿,在计算机视觉领域,研究者通过数学建模来预测数字图像或者视频中人类感兴趣的区域,这种任务被称为基于视觉语言交互的视觉显著性预测,其预测的结果被称为显著图。视觉显著性技术被应用于各个领域,并在各个邻域起着至关重要的作用。例如,随着信息技术的快速发展,视频数据的规模和复杂度都在不断增加,视频显著性能够快速地识别和提取数据中最有意义的信息,从而降低数据的复杂程度,以实现视频的数据压缩。又如,视频显著性能够模拟人类在视觉场景下注意力的位置和分布,因此,在视频处理任务引入视觉显著性,能够使其结果更加符合人类视觉感知,以实现模仿人类的视频质量评价。

3、近年来,随着深度学习逐渐应用在视频显著性预测领域,这些模型在显著性预本文档来自技高网...

【技术保护点】

1.一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述基于视觉语言交互的视觉显著性预测方法包括:

2.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述根据所述视频数据生成语言特征和视觉特征,具体包括:

3.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,通过自我注意机制所述将所述语言特征和所述视觉特征进行交互得到增强语言特征和增强视觉特征,具体包括:

4.根据权利要求3所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述对所述语言特征进行特征加权得到加权语言特征,具体包括:...

【技术特征摘要】

1.一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述基于视觉语言交互的视觉显著性预测方法包括:

2.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述根据所述视频数据生成语言特征和视觉特征,具体包括:

3.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,通过自我注意机制所述将所述语言特征和所述视觉特征进行交互得到增强语言特征和增强视觉特征,具体包括:

4.根据权利要求3所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述对所述语言特征进行特征加权得到加权语言特征,具体包括:

5.根据权利要求3所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述通过自我注意机制将所述加权语言特征和所述视觉特征进行视觉语言交互,得到增强语言特征和增强视觉特征,具体包括:

6.根据权利要求5所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述将所述加权语言特征和所述视觉特征重新排列并连接,得到矩阵特征块,具体包括:

【专利技术属性】
技术研发人员:周飞黄柏涛邱国平
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1