多模态视听问题的答案预测方法、电子设备及介质技术

技术编号：41112606 阅读：27 留言：0更新日期：2024-04-25 14:04

本申请涉及人工智能技术领域，公开了多模态视听问题的答案预测方法、电子设备及介质，其方法包括：获取视听视频和问题文本；将所述视听视频和所述问题文本送入多模态集成网络，获取所述多模态集成网络输出的视听问题的预测答案；其中，所述多模态集成网络是基于训练集中的视听视频样本、问题文本样本、融合文本特征与基础视觉特征的对比损失、融合文本特征与基础听觉特征的对比损失和所述基础视觉特征与所述基础听觉特征的对比损失，通过优化得到的。本申请至少具有以下有益效果：增强了网络的泛化能力，适应多样化的问题类型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种多模态视听问题的答案预测方法、电子设备及介质。

技术介绍

1、典型视听问答包括视听表征学习以及基于长视频中包含的多个问题进行推导，从候选人的答案中选出最合适的一个。然而，当它们转换成机器可理解的语义时，就会给多模态推理过程带来许多挑战。在早期，大多数方法尝试设计基于机器学习的模型，但这些模型往往依赖于手工制作的特征。

2、随着深度学习的快速发展，许多工作都关注视听关联，包括视听交叉注意、视听对比学习和视听遮蔽建模。虽然全面的场景信息有助于推理，但侧重于探索全局视听联合感知的方法忽略了长视频中复杂的多模态交互所产生的严重信息冗余，无法适应多样化的问题类型，限制了其网络的泛化。

技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种多模态视听问题的答案预测方法，能够增强网络的泛化能力，适应多样化的问题类型。

2、本申请还提出一种具有上述多模态视听问题的答案预测方法的电子设备。

3、本申请还提出一...

【技术保护点】

1.一种多模态视听问题的答案预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述多模态集成网络的优化方法，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述基础视觉特征、所述基础听觉特征及所述基础文本特征得到融合文本特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述基础视觉特征及所述基础听觉特征进行多尺度特征提取，包括：

5.根据权利要求3所述的方法，其特征在于，所述提取所述多尺度全局视频特征和所述多尺度全局音频特征中的关键线索，将所述关键线索融入所述基础文本特征，包括：

<...

【技术特征摘要】

1.一种多模态视听问题的答案预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述多模态集成网络的优化方法，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述基础视觉特征、所述基础听觉特征及所述基础文本特征得到融合文本特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述基础视觉特征及所述基础听觉特征进行多尺度特征提取，包括：

6.根据权利要求2所述的方法，其特征在于，所述通过蒸馏学习方法计算所述融合文本特征与...

【专利技术属性】
技术研发人员：余梓彤，叶启朗，苑凯深，郝超，刘鑫，
申请(专利权)人：大湾区大学筹，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人