【技术实现步骤摘要】
本专利技术涉及图像处理,尤其涉及的是一种基于视觉语言交互的视觉显著性预测方法、终端及可读存储介质。
技术介绍
1、在大数据信息时代,大多数人每时每刻都处在以音视频为载体的数据海洋之中。受益于人类注意力机制,使用者总能够关注到大量数据中最重要的部分。在人类视觉感官系统,这样的注意力机制被称为视觉显著性。
2、基于对视觉显著性的模仿,在计算机视觉领域,研究者通过数学建模来预测数字图像或者视频中人类感兴趣的区域,这种任务被称为基于视觉语言交互的视觉显著性预测,其预测的结果被称为显著图。视觉显著性技术被应用于各个领域,并在各个邻域起着至关重要的作用。例如,随着信息技术的快速发展,视频数据的规模和复杂度都在不断增加,视频显著性能够快速地识别和提取数据中最有意义的信息,从而降低数据的复杂程度,以实现视频的数据压缩。又如,视频显著性能够模拟人类在视觉场景下注意力的位置和分布,因此,在视频处理任务引入视觉显著性,能够使其结果更加符合人类视觉感知,以实现模仿人类的视频质量评价。
3、近年来,随着深度学习逐渐应用在视频显著性预测领域
...【技术保护点】
1.一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述基于视觉语言交互的视觉显著性预测方法包括:
2.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述根据所述视频数据生成语言特征和视觉特征,具体包括:
3.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,通过自我注意机制所述将所述语言特征和所述视觉特征进行交互得到增强语言特征和增强视觉特征,具体包括:
4.根据权利要求3所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述对所述语言特征进行特征加权得到加权语言
...【技术特征摘要】
1.一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述基于视觉语言交互的视觉显著性预测方法包括:
2.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述根据所述视频数据生成语言特征和视觉特征,具体包括:
3.根据权利要求1所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,通过自我注意机制所述将所述语言特征和所述视觉特征进行交互得到增强语言特征和增强视觉特征,具体包括:
4.根据权利要求3所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述对所述语言特征进行特征加权得到加权语言特征,具体包括:
5.根据权利要求3所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述通过自我注意机制将所述加权语言特征和所述视觉特征进行视觉语言交互,得到增强语言特征和增强视觉特征,具体包括:
6.根据权利要求5所述的一种基于视觉语言交互的视觉显著性预测方法,其特征在于,所述将所述加权语言特征和所述视觉特征重新排列并连接,得到矩阵特征块,具体包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。