一种音频音源分离方法、装置及存储介质制造方法及图纸

技术编号:28424943 阅读:16 留言:0更新日期:2021-05-11 18:33
本发明专利技术提供一种音频音源分离方法、装置及存储介质,所述方法包括:将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;获取与所述当前初始源音频对应的历史目标源音频之和;根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。本发明专利技术实施例实现了仅依靠单通道音频数据,在未知混合音频的源音频种类个数的情况下的音频音源分离。

【技术实现步骤摘要】
一种音频音源分离方法、装置及存储介质
本专利技术涉及语音信号处理
,尤其涉及一种音频音源分离方法、装置及存储介质。
技术介绍
音源分离具有广泛的应用范围,如不同人声的分离、人声与背景声的分离、乐器声的分离等。由于单通道音频信息不足,因此单通道音频音源分离任务极具挑战。为解决单通道音频信息不足的问题,现有方法大多数利用额外的信息,如利用与音频同步的视频辅助实现单通道音频的音源分离,但是这种方法对于只拥有音频数据时无法实现。此外,当前大多数单通道音频音源分离方法假设混合音频中不同种类音频的数量为先验知识被提前知道,但在实际的情况下,混合音频中不同类别音频的数量通常是未知的。
技术实现思路
本专利技术的目的在于提供一种音频音源分离方法、装置及存储介质,以实现仅仅依靠单通道音频数据,在未知混合音频的源音频种类个数的情况下,实现音频音源分离。为了解决上述技术问题,第一方面,本专利技术实施例提供一种音频音源分离方法,包括:将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;获取与所述当前初始源音频对应的历史目标源音频之和;根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。进一步地,所述的音频音源分离方法,还包括:根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;将所述当前残余音频输入递归迭代模型,得到输出结果;将所述输出结果经过sigmoid函数,得到二分类结果;当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。进一步地,所述的音频音源分离方法,还包括:获取待训练混合音频、待训练源音频和待训练分离模型;根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;将所述估计残余音频输入递归迭代模型,得到估计输出结果;将所述估计输出结果经过sigmoid函数,得到估计二分类结果;根据所述估计二分类结果计算得到均方误差;将所述第一尺度不变信噪比、第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。进一步地,所述将所述尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,具体包括:根据公式对待训练分离模型进行训练,其中,LuPIT为排序不变训练策略的训练目标,表示第一尺度不变信噪比,表示第二尺度不变信噪比,MSE表示均方误差,表示估计源音频,表示待训练源音频,表示估计残余音频,R(.)表示递归迭代模型。进一步地,所述音源分离模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。进一步地,所述递归迭代模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。第二方面,本专利技术实施例提供一种音频音源分离装置,包括:分离单元,用于将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;历史目标源音频之和获取单元,用于获取与所述当前初始源音频对应的历史目标源音频之和;共享残差音频计算单元,用于根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;当前目标源音频计算单元,用于根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。进一步地,所述的音频音源分离装置,还包括:当前残余音频计算单元,用于根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;输出结果获取单元,用于将所述当前残余音频输入递归迭代模型,得到输出结果;二分类结果获取单元,用于将所述输出结果经过sigmoid函数,得到二分类结果;返回单元,用于当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。进一步地,所述的音频音源分离装置,还包括:获取单元,用于获取待训练混合音频、待训练源音频和待训练分离模型;其中,所述待训练混合音频由所述待训练源音频组成;估计源音频和估计残余音频计算单元,根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;尺度不变信噪比计算单元,用于根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;所述尺度不变信噪比计算单元,还用于根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;估计输出结果获取单元,用于将所述估计残余音频输入递归迭代模型,得到估计输出结果;估计二分类结果获取单元,用于将所述估计输出结果经过sigmoid函数,得到估计二分类结果;均方误差计算单元,用于根据所述估计二分类结果计算得到均方误差;训练单元,用于将所述尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述所述的音频音源分离方法。本专利技术实施例提供的音频音源分离方法,包括:将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;获取与所述当前初始源音频对应的历史目标源音频之和;根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。本专利技术实施例仅依靠单通道音频数据实现了音频音源分离,相比于现有技术,所利用的信息更少,且能在未知混合音频的源音频种类个数的情况下实现音频音源分离。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例1提供的音频音源分离方法的流程示意图;图2是本专利技术实施例1提供的音频音源分离方法的另一流程示意图;图3是本专利技术一实施例提供的音频音源分离装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术本文档来自技高网...

【技术保护点】
1.一种音频音源分离方法,其特征在于,包括:/n将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;/n获取与所述当前初始源音频对应的历史目标源音频之和;/n根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;/n根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。/n

【技术特征摘要】
1.一种音频音源分离方法,其特征在于,包括:
将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;
获取与所述当前初始源音频对应的历史目标源音频之和;
根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;
根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。


2.根据权利要求1所述的音频音源分离方法,其特征在于,还包括:
根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;
将所述当前残余音频输入递归迭代模型,得到输出结果;
将所述输出结果经过sigmoid函数,得到二分类结果;
当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。


3.根据权利要求2所述的音频音源分离方法,其特征在于,还包括:
获取待训练混合音频、待训练源音频和待训练分离模型;
根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;
根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;
根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;
将所述估计残余音频输入递归迭代模型,得到估计输出结果;
将所述估计输出结果经过sigmoid函数,得到估计二分类结果;
根据所述估计二分类结果计算得到均方误差;
将所述第一尺度不变信噪比、所述第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。


4.根据权利要求3所述的音频音源分离方法,其特征在于,所述将所述第一尺度不变信噪比、所述第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,具体包括:
根据公式



对待训练分离模型进行训练,其中,LuPIT为排序不变训练策略的训练目标,表示第一尺度不变信噪比,表示第二尺度不变信噪比,MSE表示均方误差,表示估计源音频,表示待训练源音频,表示估计残余音频,R(.)表示递归迭代模型。


5.根据权利要求1所述的音频音源分离方法,其特征在于,所述音源分离模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。


6.根据权利要求2所述的音频音源分离方法,其特征在于,所述递归...

【专利技术属性】
技术研发人员:李治均
申请(专利权)人:普联国际有限公司
类型:发明
国别省市:中国香港;81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1