一种从视频中分离音源的方法技术

技术编号：23707340 阅读：104 留言：0更新日期：2020-04-08 11:39

本发明专利技术提出一种从视频中分离音源的方法。该方法由训练阶段和测试阶段两个阶段构成。该方法在训练阶段构建一个由视觉目标检测网络、声音特征提取网络和声音分离网络组成的音源分离模型，从训练数据中选取两个不同类别的视频将其音频混合，训练音源分离模型使之能够从混合音频中精确的分离出两个视频对应的原音频。在测试阶段，获取测试视频后将其输入训练完毕的音源分离模型，模型检测视频中的所有视觉目标，并从原始音频中分离出各个视觉目标对应的声音。本发明专利技术可以从目标物体级别上对音源进行分离，能够检测出视频中出现的所有目标物体并将其与分离出的对应声音进行自动匹配，建立了各视觉目标物体和分离后的声音之间的联系，应用前景广阔。

A method of separating sound source from video

全部详细技术资料下载

【技术实现步骤摘要】
一种从视频中分离音源的方法
本专利技术涉及一种从视频中分离音源的方法，属于跨模态学习领域。
技术介绍
近年来，智能可穿戴设备、智能家居以及智能服务机器人等技术迅速发展，其需要对现实场景中的视频、音频等数据进行实时处理并将处理结果进一步用于后续行为中。其中，从包含有多个音源的混合音频中分离出各个音源的声音是一项非常重要的任务。例如，当人向智能服务机器人下达语音指令时，环境中可能同时包含电话铃声、闹钟、电视等家用电器的声音，而智能机器人此时需要从获取的混合音频中分离出人的声音，来正确识别人向其下达的指令。音源分离任务是极具挑战性的任务。目前，已有研究者提出稀疏编码、独立成分分析、非负矩阵分解、深度神经网络等方法从单一的听觉模态来解决音源分离任务，但是这些方法在现实场景中的音源分离任务上效果并不理想。实际上，视频数据同时包含着图像画面和声音信号，并且二者在时间上是自然对齐的，可以充分挖掘二者的内在联系，利用视频中包含的视觉信息来指导音源分离任务。已有研究者提出跨模态的声音分离方法，建立视觉图像特征和听觉信号特征之间的关联，从而将混合音频进行分离。目前在声音分离任务上的已有工作大多都是在像素级别或者图像分割区域级别上进行声音分离，即把混合音频分离成图像各像素对应的声音，或者分离成图像分割后各个区域对应的声音。这些方法的声音分离结果并不适用于现实场景下的智能机器人等应用，在像素级别上进行声音分离时，尽管可以得到每个像素产生的声音，但是无法建立相邻像素之间的联系，单个孤立的像素在现实场景下不具备实际意义，例如机器...

【技术保护点】
1.一种从视频中分离音源的方法，其特征在于，包括以下步骤：/n(1)训练阶段/n(1-1)获取训练数据/n获取来自C类不同事件类别的T段视频作为训练数据，每段视频作为一个训练样本，每段视频的时长均相等，且每段视频中必须包含声音信号；/n(1-2)生成训练样本对/n对每一个训练样本，从其他C-1类视频中随机选取一段视频与其进行配对，生成T个训练样本对；/n(1-3)提取训练样本对的关键帧/n对于每一个训练样本对，分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧；/n(1-4)混合训练样本对的声音信号并提取音频频谱图/n对于各训练样本对，分别提取两段视频对应的声音信号并进行混合，对混合后的音频信号经重采样和短时傅里叶变换后，得到各训练样本对的音频频谱图；/n(1-5)构建音源分离模型，该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成，整个模型以视频关键帧和音频频谱图为输入，以音源分离结果为输出，具体包括以下步骤：/n(1-5-1)构建一个视觉目标检测网络，所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入，以视频关键帧中检测到的视觉目标对应的检测框和由每个...

【技术特征摘要】
1.一种从视频中分离音源的方法，其特征在于，包括以下步骤：
(1)训练阶段
(1-1)获取训练数据
获取来自C类不同事件类别的T段视频作为训练数据，每段视频作为一个训练样本，每段视频的时长均相等，且每段视频中必须包含声音信号；
(1-2)生成训练样本对
对每一个训练样本，从其他C-1类视频中随机选取一段视频与其进行配对，生成T个训练样本对；
(1-3)提取训练样本对的关键帧
对于每一个训练样本对，分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧；
(1-4)混合训练样本对的声音信号并提取音频频谱图
对于各训练样本对，分别提取两段视频对应的声音信号并进行混合，对混合后的音频信号经重采样和短时傅里叶变换后，得到各训练样本对的音频频谱图；
(1-5)构建音源分离模型，该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成，整个模型以视频关键帧和音频频谱图为输入，以音源分离结果为输出，具体包括以下步骤：
(1-5-1)构建一个视觉目标检测网络，所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入，以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出，输出的各视觉特征的维度均为S；
(1-5-2)构建一个声音特征提取网络，所述声音特征提取网络以步骤(1-4)得到的各音频频谱图为输入，以提取的相应声音特征集合作为输出；所述声音特征集合内的各声音特征分别反映输入的音频频谱图对应的声音信号的不同属性，设各声音特征集合均分别包括K个声音特征；
(1-5-3)构建一个声音分离网络，所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络；所述声音分离网络以所述视觉目标检测网络提取得到的视觉特征集合和所述声音特征提取网络提取得到的声音特征集合为输入，以音源分离结果为输出；
(1-6)对构建的音源分离模型进行迭代训练，具体步骤如下：
(1-6-1)将步骤(1-2)生成的各训练样本对中的第一视频关键帧输入步骤(1-5-1)构建的视觉目标检测网络，得到各第一视频关键帧中检测到的所有视觉目标的检测框，同时提取得到视觉特征集合，记第j个第一视频关键帧的视觉特征集合为其中为第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征，为该视频关键帧中检测到的视觉目标数量；
(1-6-2)为各视频关键帧设置视觉目标数量阈值为L，并设置对应的二进制向量用于记录输入的各视频关键帧中实际检测到的视觉目标数量；通过以下判定将步骤(1-6-1)得到的视觉特征集合转化为修正视觉特征集合
若检测到的第j个第一视频关键帧中的视觉目标数量小于L，则令修正视觉特征集合中前个视觉特征与视觉特征集合中前个对应的视觉特征相同，修正视觉特征集合中第到第L个视觉特征均为0向量，令二进制向量的前个元素均为1，其余各位均为0；若检测到的第j个第一视频关键帧中视觉目标数量大于或等于L，则保留目标检测过程中置信度最大的L个视觉目标和其对应的视觉特征，删除其余视觉目标对应的视觉特征，由保留的L个视觉特征构成第j个第一视频关键帧的修正视觉特征集合其对应的二进制向量中各元素均为1；
(1-6-3)将步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络，提取得到声音特征集合，记第j个训练样本对提取得到的的声音特征集合为
(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧修正视觉特征集合中的所有视觉特征进行平均操作，得到对应的视觉平均特征，记第j个第一视频关键帧的视觉平均特征为计算公式如下：

其中，代表输入的第j个第一视频关键帧中实际检测到的视觉目标数量，
(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络，将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S维映射至K维，得到对应的视觉映射特征，记第j个第一视频关键帧的视觉映射特征为
(1-6-6)将步骤(1-6-5)得到的各视觉映射特征和步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络，预测输入的各第一视频关键帧对应音频的频谱掩码，所述频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果；记第j个第一视频关键帧对应音频的频谱掩码...

【专利技术属性】
技术研发人员：刘华平，刘馨竹，刘晓宇，郭迪，孙富春，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人