多模态视听视频定位方法、装置及存储介质制造方法及图纸

技术编号：39328895 阅读：12 留言：0更新日期：2023-11-12 16:05

本申请提供一种多模态视听视频定位方法、装置及存储介质，所述方法包括：获取视听视频；将所述视听视频输入到多模态视听视频定位模型，获取所述多模态视听视频定位模型输出的视频定位结果；所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别和由不同模态间语义表征的不平衡程度确定的损失调制系数，通过训练得到的。本申请提供的多模态视听视频定位方法，通过对视听视频中视觉语义表征和听觉语义表征之间不平衡性进行度量，并根据度量结果对多模态视听视频定位模型进行损失调制，优化模型参数，从而提高了对对视频内弱语义模态数据的定位准确率。弱语义模态数据的定位准确率。弱语义模态数据的定位准确率。

全部详细技术资料下载

【技术实现步骤摘要】
多模态视听视频定位方法、装置及存储介质

[0001]本申请涉及计算机
，尤其涉及一种多模态视听视频定位方法、装置及存储介质。

技术介绍

[0002]近年来，随着互联网技术的快速发展、多元化多媒体数据采集设备的普及以及网民数量的持续增长，越来越多的网民参与到网络视频的拍摄与制作中，这促使网络中多媒体视频数据量激增。这些视频中通常包含着丰富的信息，实现对视频中有效信息的挖掘和理解有利于促进人类社会生活和生产的快速进步与发展。然而，由于视频本身具有的多模态结构、时空高维属性、以及网络平台中视频数据量巨大，仅依靠人力实现对视频中有效信息的挖掘和理解存在很大困难与挑战。因此，亟需设计高效且可靠的智能化视频内容理解模型。
[0003]目前，大多数视频内容理解模型都是基于视频视觉数据而设计的，这些方法大多通过挖掘视频中视觉模态数据的时空维度信息，以及不同视频间视觉模态数据的相关性信息来帮助模型提升对于视频中视觉模态信息的理解。但在一些光线或背景场景混杂的情况下，视觉数据通常不足以捕捉到清晰且可靠的内容，那么此时依据视觉信息得到的模型预测通常是不可靠甚至是错误的，这将会导致视频定位的准确率很低。

技术实现思路

[0004]本申请实施例提供一种多模态视听视频定位方法、装置及存储介质，用以解决相关技术中因视觉数据差导致的视频定位准确率低的技术问题。
[0005]第一方面，本申请实施例提供一种多模态视听视频定位方法，包括：
[0006]获取视听视频；
[0007]将所述视听视频输入到多...

【技术保护点】

【技术特征摘要】
1.一种多模态视听视频定位方法，其特征在于，包括：获取视听视频；将所述视听视频输入到多模态视听视频定位模型，获取所述多模态视听视频定位模型输出的视频定位结果；所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别和由不同模态间语义表征的不平衡程度确定的损失调制系数，通过训练得到的。2.根据权利要求1所述的多模态视听视频定位方法，其特征在于，所述多模态视听视频定位模型的训练步骤，包括：基于视听视频样本和语义类别，获取视觉语义表征和听觉语义表征，并确定视觉分类预测损失值和听觉分类预测损失值；基于所述视觉语义表征和所述听觉语义表征之间的语义差异，确定语义表征的不平衡程度；基于所述语义表征的不平衡程度，确定损失调制系数；基于所述损失调制系数、视觉分类预测损失值和听觉分类预测损失值，优化模型参数，完成训练。3.根据权利要求2所述的多模态视听视频定位方法，其特征在于，所述基于所述视觉语义表征和所述听觉语义表征之间的语义差异，确定语义表征的不平衡程度，包括：基于所述视觉语义表征和所述听觉语义表征，确定视觉分类预测结果和听觉分类预测结果；基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签，确定所述语义表征的不平衡程度。4.根据权利要求2所述的多模态视听视频定位方法，其特征在于，所述基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签，确定所述语义表征的不平衡程度，包括：基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签，确定视觉分类预测平均损失值和听觉分类预测平均损失值；根据所述视觉分类预测平均损失值和所述听觉分类预测平均损失值，计算得到所述语义表征的不平衡程度。5.根据权利要求2所述的多模态视听视频定位方法，其特征在于，所述基...

【专利技术属性】
技术研发人员：徐常胜，高君宇，傅杰，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人