基于多模态特征融合的视频内容识别方法和相关设备技术

技术编号：43372123 阅读：27 留言：0更新日期：2024-11-19 17:52

本申请实施例提供了一种基于多模态特征融合的视频内容识别方法和相关设备，属于人工智能技术领域。该方法包括：获取目标视频数据和目标视频数据的文本数据，并对目标视频数据进行特征提取，得到目标视频特征；对文本数据进行特征提取，得到原始文本特征。此后，根据原始文本特征进行视觉特征推理，得到视觉推理特征；其中，视觉推理特征用于表征目标视频数据的内容变化过程。然后，将视觉推理特征和目标视频特征进行特征交互处理，得到多模态特征。最后，根据多模态特征对目标视频数据进行内容识别。因此，本申请实施例能够将视频特征和文本特征融合成多模态特征，以进行视频内容识别，提升视频内容识别的准确性和视频数据处理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种基于多模态特征融合的视频内容识别方法和相关设备。

技术介绍

1、视频场景理解方法在多个领域展现出了广泛的应用潜力。目前，视频场景理解方法能够用于对目标对象进行分类，在其分类结果上可以进行一系列后续处理。这些后续处理包括目标对象的信息采集、追踪以及行为预测等，为视频监控、自动驾驶等领域提供了重要的技术支持。然而，传统的视频场景理解方法仅对视频数据进行特征提取，然后根据视频特征做内容识别，难以处理复杂的视频数据，视频内容识别的准确性较低。这一问题限制了视频场景理解方法在实际应用中的准确性。因此，如何提升视频场景理解方法的数据处理能力，提高视频内容识别的准确性，成为了亟待解决的技术难题。

技术实现思路

1、本申请实施例的主要目的在于提出一种基于多模态特征融合的视频内容识别方法和相关设备，旨在提升视频场景理解方法的数据处理能力，提高视频内容识别的准确性。

2、为实现上述目的，本申请实施例的第一方面提出了一种基于多模态特征融合的视频内容识别方法，所述方法包括：

3本文档来自技高网...

【技术保护点】

1.基于多模态特征融合的视频内容识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述原始文本特征包括句子级特征和多个单词级特征，所述根据所述原始文本特征进行视觉特征推理，得到视觉推理特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述单词级特征和所述更新文本特征进行单词重要性度量，得到单词重要性度量数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标视频特征包括多个帧级特征，所述将所述视觉推理特征和所述目标视频特征进行特征交互处理，得到多模态特征，包括：

5.根据权利要求4所述的方...

【技术特征摘要】

1.基于多模态特征融合的视频内容识别方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述单词级特征和所述更新文本特征进行单词重要性度量，得到单词重要性度量数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述顶点特征聚合单元对每一所述初始顶点特征进行顶点特征聚合处理，得到聚合顶点特征，包括：

6.根据权利要求4所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：张兴，章晓炜，王伟，肖立，熊永平，姚敏森，王轩，吴宇琳，吴柯维，林涛，何晓罡，熊刚，
申请(专利权)人：华润数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人