用于场景-感知音频-视频表示的方法和系统技术方案

技术编号：40591516 阅读：5 留言：0更新日期：2024-03-12 21:52

实施方式公开了一种用于场景的场景‑感知音频‑视频表示的方法和系统。场景‑感知音频‑视频表示对应于通过边连接的节点的图。图中的节点表示场景中的对象的视频特征。图中的连接两个节点的边表示场景中的相应两个对象的交互。在图中，至少一个或更多个边与由相应两个对象的交互发出的声音的音频特征相关联。场景的音频‑视频表示的图可以被用于执行各种不同任务。任务的示例包括动作识别、异常检测、声音定位和增强、噪声背景音去除和系统控制中的一者或组合。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体涉及音频-视频场景-感知识别，并且更具体地涉及用于处理场景-感知音频-视频表示的方法和系统。

技术介绍

1、多年来，已经开发了捕获周围环境的场景的各种技术。例如，摄影和成像的概念在数百年前就已经发展起来，并逐渐过渡到数字领域。最初，数字图像被定义为由像素组成的二维(2d)表示，每个像素的强度或灰度等级都具有数值表示的有限离散量。然而，像素表示对于不同的图像相关应用并不总是方便的。为此，已经开发了周围环境的替代表示。

2、例如，距离场图像表示在各种图应用中都很有用，包括反锯齿、光线步进和纹理合成。例如，距离场已被广泛应用于数控(numerical control，nc)应用的模拟中。可伸缩向量图(scalable vector graphics，svg)是一种基于可扩展标记语言(extensible markuplanguage，xml)的二维图向量图像格式，支持交互和动画。发现基于svg的表示对于基于地图的应用是有利的。另外地或替代地，已经开发了各种特征提取和压缩技术，以用于更紧凑和高效的图像表示和存储。例如，已经开发了各种对象检测和分割应用来分析从像素提取的特征，而不是像素的强度。

3、在视频域中观察到针对不同应用寻找不同图像表示的类似趋势。然而，视频域呈现了更多的挑战，因为表示不仅要捕获对象在空间域中的空间变化，还要捕获对象在时间域中的演变。为此，已经开发了许多不同的表示来捕获和存储视频文件。例如，已经开发了各种有损和无损压缩技术来利用相邻视频文件中的相似性，已经开发出各种特征提取技术来提取

4、为了进一步表示环境的场景，数字音频技术被用于声音的记录、操纵、大规模生产和分发，包括歌曲、器乐作品、播客、音效和其它声音的录制。各种技术依赖于适当的音频表示。例如，已经开发出用于数字音频的存储或传输的不同音频编码格式。音频编码格式的示例包括mp3、aac、vorbis、flac和opus。此外，类似于图像处理，已经提出了用于处理从音频文件中提取的特征的各种技术。这些基于特征的技术广泛应用于自动语音识别系统中。

5、当需要为音频模态和视频模态(modality)提供公共表示时，场景的表示就成为了更具挑战性的问题。虽然这些模态可以表示相同的场景，但是不同模态可能不会自然地彼此对齐。为此，现代技术通常通过添加预处理技术和后处理技术来分别处理这些模态。预处理技术的示例包括从视频文件导出线索以辅助音频处理，反之亦然。后处理技术的示例包括提供用于注释视频的音频字幕。

6、然而，这些技术都不适用于环境中的音频-视频场景的复杂而丰富的表示。因此，需要适用于其它应用和技术的音频-视频场景的新表示。此外，还需要一种被配置用于生成和处理这种新表示的系统和方法。

技术实现思路

1、因此，一些实施方式的目的是提供一种以高效和准确的方式处理场景的音频-视频表示的系统和方法。这种处理的示例包括生成音频-视频表示以及基于音频-视频表示执行应用特定任务。为此，在一个实施方式中，生成指示视频的场景的场景-感知音频-视频表示的基于图的表示。可以使用一个或更多个图像/视频捕获设备(诸如，一个或更多个摄像头)来捕获视频。一个或更多个摄像头可以连接到该系统，诸如用于生成场景-感知音频-视频表示的计算系统。

2、一些实施方式基于这样的实现，即，场景-感知音频-视频表示包括映射在由边连接的节点的图上的结构。图中的每个节点表示对象，例如，指示场景中的对象的视频特征。图中的每条边连接两个节点。图的每条边指示场景中的相应两个对象的交互。通过这种方式，图表示对象及其交互。

3、在一些实施方式中，可以基于场景中的对象的检测和分类来生成图表示。此外，可以基于预定可能对象集合和可能交互集合来选择图表示的节点(即，对象)和边(即，对象的交互)。节点和边的选择实施了对象和交互的唯一性。例如，对象可以被分类为人，而不是一组人，除非一组人属于可能对象集合。

4、一些实施方式基于这样的理解，即，场景包括两个对象的复杂交互，复杂交互包括空间交互和时间交互中的一者或组合。例如，所捕获的场景可以包括具有指示人、车辆或动物的不同对象的动态内容、空间域中的不同音频以及时域中的相应对象的演变。此外，场景还可以包括对象中存在的不同交互或关系。在实时示例场景中，场景可以对应于有对象(诸如处于不同动作中的人、处于运动中的车辆、处于休息中的车辆和奔跑的动物等)的繁忙街道。处于不同动作的人可以包括带着乐器的音乐家。在场景中，一些乐器可能会由相应的音乐家主动演奏，而一些乐器可能不被演奏。

5、另外地或另选地，一些实施方式的目标是生成具有复杂交互的图表示，该复杂交互包括对象的空间交互和时间交互。为此，在一些实施方式中，图表示由通过边全连接的节点组成。每个节点指示场景中的一个对象，并且每个全连接的边指示与场景的空间域和时域中的两个对象相对应的交互。

6、一些实施方式基于这样的理解，即，在交互中，一些对象可以同等贡献地发出声音。在某些情况下，对象可以在与另一个对象交互时发出声音，也可以单独对发出声音做出贡献。例如，音乐家可能在场景中一边唱歌一边弹吉他。在一些其它情况下，一些对象可能对声音生成没有同等的贡献。例如，音乐家可能在拉小提琴而不唱歌。在这种情况下，可以基于它们的交互类型来定义对发出声音没有同等贡献的那些对象。为此，在一些实施方式中，这样的对象的相应边可以包括定义交互类型的属性。在一些示例实施方式中，交互的类型可以由边的方向指示，并且由有向边连接的相应节点(即，对象)可以被区分为主对象和环境对象。例如，指示音乐家演奏的小提琴的节点对应于主对象，演奏小提琴的音乐家对应于环境对象。

7、在一些实现中，图中的节点和/或边可以与由对象或对象的交互发出的声音的音频特征相关联。例如，对象的节点(诸如，在水中戏水时吠叫的狗)可以与相应的音频特征相关联。同样，连接主对象和环境对象的边也可以与音频特征相关联。另外地或另选地，一些实施方式的另一个目的是提取特征，诸如包括场景的空间信息和时间信息的视频特征和音频特征。

8、一些实施方式基于这样的理解，即，对视频特征和音频特征的联合提取可以提高系统的整体性能。视频特征和音频特征的联合提取可以排除预处理步骤和后处理步骤，这可以提高整体性能。

9、为此，一些实施方式公开了一种音频-源分离框架，该框架将对象的单个音频与音频混合隔离。音频混合可以对应于包括不同音频信号的频率变化的混合音频声谱图。可以基于来自视频的对象的视觉以及对象的相应交互，将音频与音频混合隔离。

10、在一些实施方式中，音频-源分离框架可以包括神经网络。神经网络可以包括多个子网络，多个子网络被端到端训练以将音频特征与图的节点和/或边相关联。多个子网络可以包括基于注意力的子网络，基于注意力的子网络被训练成将不同注意力放在对象的不同交互上。

11、经本文档来自技高网...

【技术保护点】

1.一种用于处理场景的音频-视频表示的系统，所述系统包括：至少一个处理器；以及非易失性存储器，所述非易失性存储器上存储有指令，当所述指令由所述至少一个处理器执行时使得所述系统：

2.根据权利要求1所述的系统，其中，所述场景中的相应两个对象的交互包括空间交互和时间交互中的一者或组合。

3.根据权利要求1所述的系统，其中，所述图中的至少一个节点在不与所述场景中的其它对象交互的情况下与由相应对象发出的声音的音频特征相关联。

4.根据权利要求1所述的系统，其中，与音频特征相关联的边连接发出所述声音的主对象和使所述主对象发出所述声音的环境对象，并且其中，所述边具有从所述环境对象的节点指向所述主对象的节点的方向。

5.根据权利要求1所述的系统，其中，所述图中的多个边与音频特征相关联，并且其中，与不同边相关联的音频特征彼此正交。

6.根据权利要求5所述的系统，其中，所述音频特征基于所述音频特征的相应对象的视觉特征与多个边相关联，并且其中，所述视觉特征对应于来自所述图的所述相应对象的一个或更多个子图。

7.根据权利要求1所述

8.根据权利要求1所述的系统，所述系统还包括：

9.根据权利要求8所述的系统，其中，所述神经网络包括多个子网络，所述多个子网络被端到端训练以将所述声音与相应两个对象的交互相关联，并且其中，所述多个子网络包括基于注意力的子网络，所述基于注意力的子网络被训练以将不同注意力放在不同对象对的不同交互上。

10.根据权利要求1所述的系统，其中，所述至少一个处理器被配置为使用由提供所述场景的所述音频-视频表示的所述边连接的所述节点的图来执行所述任务。

11.根据权利要求10所述的系统，其中，所述任务包括动作识别、异常检测、声音定位和增强、噪声背景音去除和系统控制中的一者或组合。

12.一种用于处理场景的音频-视频表示的方法，其中，所述方法使用与实现所述方法的存储指令联接的处理器，其中，所述指令在由所述处理器执行时执行所述方法中的步骤，所述方法包括以下步骤：

13.根据权利要求12所述的方法，其中，与音频特征相关联的所述边连接发出所述声音的主对象和使所述主对象发出所述声音的环境对象，并且其中，所述边具有从所述环境对象的节点指向所述主对象的节点的方向。

14.根据权利要求12所述的方法，其中，所述图中的多个边与音频特征相关联，并且其中，与不同边相关联的音频特征彼此正交。

15.根据权利要求12所述的方法，所述方法还包括以下步骤：

16.根据权利要求12所述的方法，所述方法还包括以下步骤：

17.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质上包括能够由处理器执行的用于执行方法的程序，所述方法包括：

...

【技术特征摘要】
【国外来华专利技术】

2.根据权利要求1所述的系统，其中，所述场景中的相应两个对象的交互包括空间交互和时间交互中的一者或组合。

3.根据权利要求1所述的系统，其中，所述图中的至少一个节点在不与所述场景中的其它对象交互的情况下与由相应对象发出的声音的音频特征相关联。

5.根据权利要求1所述的系统，其中，所述图中的多个边与音频特征相关联，并且其中，与不同边相关联的音频特征彼此正交。

7.根据权利要求1所述的系统，所述系统还被配置为存储所述场景中的多个声音的音频混合，其中，与所述边相关联的所述音频特征由二进制掩码表示，并且其中，所述二进制掩码在被应用于所述音频混合时产生相关联的音频特征。

8.根据权利要求1所述的系统，所述系统还包括：

9.根据权利要求8所述的系统，其中，所述神经网络包括多个子...

【专利技术属性】
技术研发人员：M·查特吉，A·谢里安，J·勒鲁克斯，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人