当前位置: 首页 > 专利查询>上海大学专利>正文

一种视听觉注意力预测模型的构建方法及系统技术方案

技术编号:40272630 阅读:39 留言:0更新日期:2024-02-02 22:58
本发明专利技术提供了一种多模态架构的视听觉注意力预测模型的构建方法,针对视频这一种含有多感官刺激的媒介,包括:构建多模态架构的视听觉注意力预测模型,能够获取视频中音频特征以及图像静态和动态显著性特征;采用已知的图像眼动数据集对图像级的视觉注意力预测模型进行端到端预训练,将训练好的模型作为视听觉注意力模型的图像显著性特征提取层,将图像级的显著性信息融入到视听觉注意力预测模型当中;采用大数据预训练音频分类网络以及视频分类网络作为音频和视频的特征提取网络,通过自监督架构的音频和视觉特征融合模块充分融合两种模态的特征。该一种多模态架构的视听觉注意力预测模型的构建方法将视频的音频和图像时空特征有效结合,具有预测效率高,成本低,易于实现,并且部署十分灵活等特点。

【技术实现步骤摘要】

本专利技术涉及视听觉注意力预测,具体地,涉及一种视听觉注意力预测模型的构建方法及系统


技术介绍

1、视听觉注意力预测是人工智能领域中一个快速发展的领域,旨在识别和预测在视听环境中最有可能吸引用户视觉注意力的区域。这一研究领域是跨学科的,涉及计算机视觉、音频处理和机器学习领域。视听觉注意力预测的主要目的是了解人类的视觉系统如何受视听刺激的影响。研究表明,人类倾向于将注意力集中在视听环境的特定区域,如信息量最大或最有趣的物体或人。通过识别这些区域,可以开发出能够以更人性化的方式分析和理解视听内容的算法。视听觉注意力预测算法可以被应用到多个方面。例如,可以通过自动识别视频中最重要的部分来改进视频摘要。还可以用于创建自动视频编辑工具,可以根据最显著的区域智能地剪切和拼接视频片段。此外,视听觉注意力预测算法可用于增强现实应用程序,通过突出显示场景中最重要的区域来增强用户体验。

2、深度学习的最新发展为视听觉注意力预测模型带来了显著的进展。现有的视听觉注意力模型可以分析视频流的音频和视觉特征,以预测哪些区域对于人眼来说最显著。然而,该领域仍有许多挑战需要本文档来自技高网...

【技术保护点】

1.一种视听觉注意力预测模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的视听觉注意力预测模型的构建方法,其特征在于,所述构建多模态架构的视听觉注意力预测模型,包括:音频和视频特征提取模块、图像显著性特征提取模块、视听特征融合模块、多尺度增强模块、图像语义特征融合模块、多阶特征融合模块和显著图读出网络模块,进行端到端的视听觉注意力预测;

3.根据权利要求2所述的视听觉注意力预测模块的构建方法,其特征在于,采用已知的图像眼动数据集对图像级的视觉注意力预测模型进行端到端预训练,将训练好的模型作为视听觉注意力模型的图像显著性特征提取层;p>

4.根据权...

【技术特征摘要】

1.一种视听觉注意力预测模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的视听觉注意力预测模型的构建方法,其特征在于,所述构建多模态架构的视听觉注意力预测模型,包括:音频和视频特征提取模块、图像显著性特征提取模块、视听特征融合模块、多尺度增强模块、图像语义特征融合模块、多阶特征融合模块和显著图读出网络模块,进行端到端的视听觉注意力预测;

3.根据权利要求2所述的视听觉注意力预测模块的构建方法,其特征在于,采用已知的图像眼动数据集对图像级的视觉注意力预测模型进行端到端预训练,将训练好的模型作为视听觉注意力模型的图像显著性特征提取层;

4.根据权利要求1所述的视听觉注意力预测模型的构建方法,其特征在于,所述采用已知的图像眼动数据集对所述图像级的视觉注意力预测模型进行预训练,采用已知的音视频眼动数据集对所述多模态架构的视听觉注意力预测模型进行训练,完成对所述多模态架构的视听觉注意力预测模型的端到端训练,包括:

5.根据权利要求4所述的视听觉注意...

【专利技术属性】
技术研发人员:刘志谢佳伟宋英杰李恭杨陆小锋刘学锋
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1