【技术实现步骤摘要】
本专利技术涉及视听觉注意力预测,具体地,涉及一种视听觉注意力预测模型的构建方法及系统。
技术介绍
1、视听觉注意力预测是人工智能领域中一个快速发展的领域,旨在识别和预测在视听环境中最有可能吸引用户视觉注意力的区域。这一研究领域是跨学科的,涉及计算机视觉、音频处理和机器学习领域。视听觉注意力预测的主要目的是了解人类的视觉系统如何受视听刺激的影响。研究表明,人类倾向于将注意力集中在视听环境的特定区域,如信息量最大或最有趣的物体或人。通过识别这些区域,可以开发出能够以更人性化的方式分析和理解视听内容的算法。视听觉注意力预测算法可以被应用到多个方面。例如,可以通过自动识别视频中最重要的部分来改进视频摘要。还可以用于创建自动视频编辑工具,可以根据最显著的区域智能地剪切和拼接视频片段。此外,视听觉注意力预测算法可用于增强现实应用程序,通过突出显示场景中最重要的区域来增强用户体验。
2、深度学习的最新发展为视听觉注意力预测模型带来了显著的进展。现有的视听觉注意力模型可以分析视频流的音频和视觉特征,以预测哪些区域对于人眼来说最显著。然而,该
...【技术保护点】
1.一种视听觉注意力预测模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的视听觉注意力预测模型的构建方法,其特征在于,所述构建多模态架构的视听觉注意力预测模型,包括:音频和视频特征提取模块、图像显著性特征提取模块、视听特征融合模块、多尺度增强模块、图像语义特征融合模块、多阶特征融合模块和显著图读出网络模块,进行端到端的视听觉注意力预测;
3.根据权利要求2所述的视听觉注意力预测模块的构建方法,其特征在于,采用已知的图像眼动数据集对图像级的视觉注意力预测模型进行端到端预训练,将训练好的模型作为视听觉注意力模型的图像显著性特征提取层;
...【技术特征摘要】
1.一种视听觉注意力预测模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的视听觉注意力预测模型的构建方法,其特征在于,所述构建多模态架构的视听觉注意力预测模型,包括:音频和视频特征提取模块、图像显著性特征提取模块、视听特征融合模块、多尺度增强模块、图像语义特征融合模块、多阶特征融合模块和显著图读出网络模块,进行端到端的视听觉注意力预测;
3.根据权利要求2所述的视听觉注意力预测模块的构建方法,其特征在于,采用已知的图像眼动数据集对图像级的视觉注意力预测模型进行端到端预训练,将训练好的模型作为视听觉注意力模型的图像显著性特征提取层;
4.根据权利要求1所述的视听觉注意力预测模型的构建方法,其特征在于,所述采用已知的图像眼动数据集对所述图像级的视觉注意力预测模型进行预训练,采用已知的音视频眼动数据集对所述多模态架构的视听觉注意力预测模型进行训练,完成对所述多模态架构的视听觉注意力预测模型的端到端训练,包括:
5.根据权利要求4所述的视听觉注意...
【专利技术属性】
技术研发人员:刘志,谢佳伟,宋英杰,李恭杨,陆小锋,刘学锋,
申请(专利权)人:上海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。