多模态视听视频定位方法、装置及存储介质制造方法及图纸

技术编号:39328895 阅读:12 留言:0更新日期:2023-11-12 16:05
本申请提供一种多模态视听视频定位方法、装置及存储介质,所述方法包括:获取视听视频;将所述视听视频输入到多模态视听视频定位模型,获取所述多模态视听视频定位模型输出的视频定位结果;所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别和由不同模态间语义表征的不平衡程度确定的损失调制系数,通过训练得到的。本申请提供的多模态视听视频定位方法,通过对视听视频中视觉语义表征和听觉语义表征之间不平衡性进行度量,并根据度量结果对多模态视听视频定位模型进行损失调制,优化模型参数,从而提高了对对视频内弱语义模态数据的定位准确率。弱语义模态数据的定位准确率。弱语义模态数据的定位准确率。

【技术实现步骤摘要】
多模态视听视频定位方法、装置及存储介质


[0001]本申请涉及计算机
,尤其涉及一种多模态视听视频定位方法、装置及存储介质。

技术介绍

[0002]近年来,随着互联网技术的快速发展、多元化多媒体数据采集设备的普及以及网民数量的持续增长,越来越多的网民参与到网络视频的拍摄与制作中,这促使网络中多媒体视频数据量激增。这些视频中通常包含着丰富的信息,实现对视频中有效信息的挖掘和理解有利于促进人类社会生活和生产的快速进步与发展。然而,由于视频本身具有的多模态结构、时空高维属性、以及网络平台中视频数据量巨大,仅依靠人力实现对视频中有效信息的挖掘和理解存在很大困难与挑战。因此,亟需设计高效且可靠的智能化视频内容理解模型。
[0003]目前,大多数视频内容理解模型都是基于视频视觉数据而设计的,这些方法大多通过挖掘视频中视觉模态数据的时空维度信息,以及不同视频间视觉模态数据的相关性信息来帮助模型提升对于视频中视觉模态信息的理解。但在一些光线或背景场景混杂的情况下,视觉数据通常不足以捕捉到清晰且可靠的内容,那么此时依据视觉信息得到的模型预测通常是不可靠甚至是错误的,这将会导致视频定位的准确率很低。

技术实现思路

[0004]本申请实施例提供一种多模态视听视频定位方法、装置及存储介质,用以解决相关技术中因视觉数据差导致的视频定位准确率低的技术问题。
[0005]第一方面,本申请实施例提供一种多模态视听视频定位方法,包括:
[0006]获取视听视频;
[0007]将所述视听视频输入到多模态视听视频定位模型,获取所述多模态视听视频定位模型输出的视频定位结果;所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别标签和由不同模态间语义表征的不平衡程度确定的损失调制系数,通过训练得到的。
[0008]在一些实施例中,所述多模态视听视频定位模型的训练步骤,包括:
[0009]基于视听视频样本和语义类别标签,获取视觉语义表征和听觉语义表征,并确定视觉分类预测损失值和听觉分类预测损失值;
[0010]基于所述视觉语义表征和所述听觉语义表征之间的语义差异,确定语义表征的不平衡程度;
[0011]基于所述语义表征的不平衡程度,确定损失调制系数;
[0012]基于所述损失调制系数、视觉分类预测损失值和听觉分类预测损失值,优化模型参数,完成训练。
[0013]在一些实施例中,所述基于所述视觉语义表征和所述听觉语义表征之间的语义差
异,确定语义表征的不平衡程度,包括:
[0014]基于所述视觉语义表征和所述听觉语义表征,确定视觉分类预测结果和听觉分类预测结果;
[0015]基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定所述语义表征的不平衡程度。
[0016]在一些实施例中,所述基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定所述语义表征的不平衡程度,包括:
[0017]基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定视觉分类预测平均损失值和听觉分类预测平均损失值;
[0018]根据所述视觉分类预测平均损失值和所述听觉分类预测平均损失值,计算得到所述语义表征的不平衡程度。
[0019]在一些实施例中,所述基于所述语义表征的不平衡程度,确定损失调制系数,包括:
[0020]基于所述语义表征的不平衡程度,利用激活函数确定损失调制系数。
[0021]在一些实施例中,所述基于所述损失调制系数、视觉分类预测损失值和听觉分类预测损失值,优化模型参数,完成训练,包括:
[0022]基于所述损失调制系数,对所述视觉分类预测损失值和所述听觉分类预测损失值进行平衡调制,确定损失函数;
[0023]基于所述损失函数,优化模型参数,完成训练。
[0024]在一些实施例中,基于视听视频样本和语义类别标签,获取视觉语义表征和听觉语义表征,并确定视觉分类预测损失值和听觉分类预测损失值,包括:
[0025]获取所述视听视频样本的视觉语义表征和听觉语义表征;
[0026]根据所述视觉语义表征、听觉语义表征和语义类别标签,确定视觉分类预测损失值和听觉分类预测损失值。
[0027]在一些实施例中,所述获取所述视听视频样本的视觉语义表征和听觉语义表征,包括:
[0028]基于视觉语义表征编码器,获取所述视觉语义表征;
[0029]基于听觉语义表征编码器,获取所述听觉语义表征。
[0030]第二方面,本申请实施例还提供一种多模态视听视频定位装置,包括:
[0031]第一获取模块,用于获取视听视频;
[0032]第二获取模块,用于将所述视听视频输入到多模态视听视频定位模型,获取所述多模态视听视频定位模型输出的视频定位结果;所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别标签和由不同模态间语义表征的不平衡程度确定的损失调制系数,通过训练得到的。
[0033]在一些实施例中,所述第二获取模块包括第一确定子模块,第二确定子模块,第三确定子模块和第一优化子模块,其中:
[0034]所述第一确定子模块用于基于视听视频样本和语义类别标签,获取视觉语义表征和听觉语义表征,并确定视觉分类预测损失值和听觉分类预测损失值;
[0035]所述第二确定子模块用于基于所述视觉语义表征和所述听觉语义表征之间的语
义差异,确定语义表征的不平衡程度;
[0036]所述第三确定子模块用于基于所述语义表征的不平衡程度,确定损失调制系数;
[0037]所述第一优化子模块用于基于所述损失调制系数、视觉分类预测损失值和听觉分类预测损失值,优化模型参数,完成训练。
[0038]在一些实施例中,所述第二确定子模块包括第一确定单元和第二确定单元,其中:
[0039]所述第一确定单元用于基于所述视觉语义表征和所述听觉语义表征,确定视觉分类预测结果和听觉分类预测结果;
[0040]所述第二确定单元用于基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定所述语义表征的不平衡程度。
[0041]在一些实施例中,所述第一确定单元包括第一确定子单元和第一计算子单元:
[0042]所述第一确定子单元用于基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定视觉分类预测平均损失值和听觉分类预测平均损失值;
[0043]所述第一计算子单元根据所述视觉分类预测平均损失值和所述听觉分类预测平均损失值,计算得到所述语义表征的不平衡程度。
[0044]在一些实施例中,所述第三确定子模块包括第三确定单元:
[0045]所述第三确定单元用于基于所述语义表征的不平衡程度,利用激活函数确定损失调制系数。
[0046]在一些实施例中,所述第一优化子模块包括第四确定单元和第一优化单元,其中:
[0047]所述第四本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态视听视频定位方法,其特征在于,包括:获取视听视频;将所述视听视频输入到多模态视听视频定位模型,获取所述多模态视听视频定位模型输出的视频定位结果;所述多模态视听视频定位模型是基于训练集中的视听视频样本、语义类别和由不同模态间语义表征的不平衡程度确定的损失调制系数,通过训练得到的。2.根据权利要求1所述的多模态视听视频定位方法,其特征在于,所述多模态视听视频定位模型的训练步骤,包括:基于视听视频样本和语义类别,获取视觉语义表征和听觉语义表征,并确定视觉分类预测损失值和听觉分类预测损失值;基于所述视觉语义表征和所述听觉语义表征之间的语义差异,确定语义表征的不平衡程度;基于所述语义表征的不平衡程度,确定损失调制系数;基于所述损失调制系数、视觉分类预测损失值和听觉分类预测损失值,优化模型参数,完成训练。3.根据权利要求2所述的多模态视听视频定位方法,其特征在于,所述基于所述视觉语义表征和所述听觉语义表征之间的语义差异,确定语义表征的不平衡程度,包括:基于所述视觉语义表征和所述听觉语义表征,确定视觉分类预测结果和听觉分类预测结果;基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定所述语义表征的不平衡程度。4.根据权利要求2所述的多模态视听视频定位方法,其特征在于,所述基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定所述语义表征的不平衡程度,包括:基于所述视觉分类预测结果、所述听觉分类预测结果和所述语义类别标签,确定视觉分类预测平均损失值和听觉分类预测平均损失值;根据所述视觉分类预测平均损失值和所述听觉分类预测平均损失值,计算得到所述语义表征的不平衡程度。5.根据权利要求2所述的多模态视听视频定位方法,其特征在于,所述基...

【专利技术属性】
技术研发人员:徐常胜高君宇傅杰
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1