动态音频源分离的方法和系统技术方案

技术编号:14879385 阅读:60 留言:0更新日期:2017-03-24 02:18
描述了一种音频源分离的方法和系统(20)。该方法包括:接收(10)音频混合和与音频混合相关联的至少一个文本查询;从辅助音频数据库中取回(11)至少一个音频样本;评估(12)取回的音频样本;以及使用音频样本将音频混合分离(13)成多个音频源。相应的系统(20)包括被配置为实现该方法的接收单元(21)和处理器(22)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频源分离的方法和系统。具体地,该方法和系统针对音频源分离利用基于组合的文本和示例的方法。本专利技术还涉及适用于这种方法或系统的计算机可读介质。
技术介绍
音频源分离涉及将音频混合分解为其组成声源。这提供了在音频/语音增强、后期制作、3D音频等中宽泛的应用范围。尤其,盲源分离(BSS)假定在不具有关于源、混合、和/或生成混合的混合过程的情况下执行音频源分离。另一方面,消息源分离(ISS)允许利用来自一些辅助信息的指导来执行音频源分离。大多数用于监督式音频源分离的现有方法是基于示例的方法。这些方法的先决条件是事先获得一些类似于目标音频源的音频样本,这通常比较繁琐且并非总是可能的。当音频样本事先是不可用的时,替代地,可以使用简单文本查询来搜索音频文件。该用于音频源分离的基于文本查询的方法对于用户更为容易并且更为有效,因为用户仅需要例如听音频混合并提供描述他们想要分离的内容的文字。然而,尽管在[XII]中描述了基于本文查询的方法,但是目前为止还没有任何能够有效地处理噪声或非代表性取回示例的实际解决方案。对于基于示例的音频源分离,单频道源分离是欠定的问题,并因此是在最具挑战的问题之中。若干算法提议考虑预先学习单个声源的频谱特性,以便将它们从音频混合中分离。为了实现该目的,需要获得初期训练数据来学习并指示单个目标源的频谱特性。基于非负矩阵分解(NMF)[I,II,III]或其被称为概率性潜在分量分析(PLCA)[IV,V]的概率性公式来提出监督式算法的类别。然而,当训练数据不可用或不足以代表音频源时,上述方法在不具有关于源的补充信息的情况下变得不再适用。例如,补充信息包括模仿混合中的“哼(hummed)”的声音[V],或者相应的音频混合的文本转录[VI]。最近已经提出了基于NMF的针对音频源分离的用户指导方法[VII],借此整体的音频源分离过程可能包括若干交互式分离步骤。这些方法允许终端用户手动地注释关于每个声源的活动性的信息。代替上述所提到的训练数据,使用该注释的信息来指导源分离过程。此外,用户能够通过在分离过程期间注释中间分离结果的频谱图显示来核查分离结果并纠正其错误。然而,对于上述用户指导方法和交互式方法,需要用户具有一些关于音频源频谱图和音频信号处理的基本知识,以便手动地指定音频源的特性,从而与分离过程进行交互。换句话说,可选择的交互和音频源分离的干扰对于终端用户并非容易和实用。此外,注释过程即使对于专业操作员也是很耗时的。
技术实现思路
本专利技术的目的是提出一种改进的用于音频源分离的解决方案,具体在于简化用户交互,以便没有经验的中断用户可以容易地执行源分离任务。根据本专利技术的第一方面,一种音频源分离的方法包括:接收音频混合和与音频混合相关联的至少一个文本查询;通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从辅助音频数据库中取回至少一个音频样本;评估从辅助音频数据库中取回的音频样本;以及使用取回的音频样本将音频混合分离成多个音频源。在本专利技术的一个实施例中,评估音频样本和分离音频混合是通过对音频混合和音频样本应用非负矩阵分解(NMF)来被共同执行的。因此,被配置为实现音频源分离的方法的系统,包括:接收单元,被配置为接收音频混合和与音频混合相关联的至少一个文本查询;以及处理器,被配置为通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从辅助音频数据库中取回至少一个音频样本,从而评估从辅助音频数据库中取回的音频样本,以及使用该音频样本将音频混合分离成多个音频源。此外,一种存储有用于音频混合的音频源分离的指令的计算机可读介质,当指令由计算机执行时,使得计算机:接收音频混合和与音频混合相关联的至少一个文本查询;通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从辅助音频数据库中取回至少一个音频样本;评估从辅助音频数据库中取回的音频样本;以及使用音频样本将音频混合分离成多个音频源。本专利技术的音频源分离的方法简化过程并改进源分离的结果。通过结合本文和样本的方法,允许终端用户通过简单地提供描述混合中的声音的文本查询或口语音频很容易地与执行音频源分离的系统进行交互。在后一种情况中,语音到文本接口被用来将口语音频查询转换为文本查询。评估最初取回的音频样本通过提供更好的训练源样本来改进后续的音频源分离。在本专利技术的一个实施例中,源样本的评估和音频混合的源分离是被共同执行的,音频源分离的整个过程变得更为有效。附图说明为了更好地理解本专利技术,现在参考附图来更详细地解释下面的描述。应当理解的是,本专利技术不限于公开的示例性实施例,并且在不脱离由所附的权利要求所定义的本专利技术的范围的情况下,指定的特征还可以被适当地合并和/或修改。图1是示出了根据本专利技术的音频源分离方法的优选实施例的流程图。图2是示出了根据本专利技术的源分离阶段的一个实施例的流程图。图3是示出了NMF分解的示例性图示。图4是示出了根据本专利技术的方法的另一优选实施例的流程图。图5是示出了在迭代过程期间权衡参数λ在NMF应用的优化函数公式中适应性地改变的一个实施例的图示。图6是示出了用于本专利技术的NMF应用的组稀疏惩罚方法的效果的示例性图示。图7是示出了用于本专利技术的NMF应用的结合组稀疏惩罚方法和行稀疏惩罚方法的效果的示例性图示。图8是示出了根据本专利技术的实现音频源分离的方法的系统的示意图。具体实施方式参考图1,根据本专利技术的音频源分离的方法的一个优选实施例,包括:接收10音频混合和与音频混合相关联的至少一个文本查询;通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从辅助音频数据库中取回11至少一个音频样本;评估12从辅助音频数据库中取回的音频样本;以及使用该音频样本将音频混合分离13成多个音频源。音频源分离的方法可以在系统中和/或由处理器、服务器、或任意合适的设备执行。文本查询可以由用户通过用户输入设备等(例如,打字设备或远程控制)来提供。用户听取音频混合,区分音频混合中的音频源,然后任意地提供文本查询。替代地,文本查询可以由执行语音转文字或类似的技术的设备直接提供。文本查询优选地描述了包括在音频混合中的音频源(例如,犬吠、鸟鸣等)和/或诸如语音内容之类的音频混合的文本内容。此外,其他指定的参数(例如,采样率、信道数、音频文件类型(wav、mp3等))也可以被包括在文本查询中以及与文本查询相结合,每个文本查询涉及单个或若干个音频源。当然,文本查询的长度、形式、和/或其他特性并不限于此,并且对于不同的需求是灵活变化的。文本查询随后被用于从辅助数据库中音频取回11音频样本。辅助音频数据库是与一些语义信息相关联的数据库,该语义信息优选地标识了数据库的音频数据的内容。当然,语义信息可能具有适用于源分离的任意形式,例如,标签、文件名称、相应的网页等。优选地,辅助数据库是公共的并且容易访问的数据库(例如,公开的搜索引擎,如Google和Findsounds)。在该情况中,取回的音频样本可以被本地下载用于进一步处理和/或URL的列表可以由辅助数据库提供。替代地,辅助数据库还可以是针对音频源分离所预备的、本地的或任意类型的数据库。由于存在至少与辅助数据库相关联的一些语义信息,所以通过将接收的文本查询与辅助数据库的语义信息相匹配来执行音频样本的取回。换句本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201580026539.html" title="动态音频源分离的方法和系统原文来自X技术">动态音频源分离的方法和系统</a>

【技术保护点】
一种针对音频混合的音频源分离的方法,该方法由处理器执行,包括:‑接收(10)音频混合和与所述音频混合相关联的至少一个文本查询;‑通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从所述辅助音频数据库中取回(11)至少一个音频样本;‑评估(12)从所述辅助音频数据库中取回的音频样本;以及‑使用所述音频样本将所述音频混合分离(13)成多个音频源。

【技术特征摘要】
【国外来华专利技术】2014.05.15 EP 14305712.31.一种针对音频混合的音频源分离的方法,该方法由处理器执行,包括:-接收(10)音频混合和与所述音频混合相关联的至少一个文本查询;-通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从所述辅助音频数据库中取回(11)至少一个音频样本;-评估(12)从所述辅助音频数据库中取回的音频样本;以及-使用所述音频样本将所述音频混合分离(13)成多个音频源。2.如权利要求1所述的方法,其中,分离(13)所述音频混合根据所述音频样本的评估结果使用所述音频样本的子集。3.如权利要求1所述的方法,其中,评估(12)所述音频样本包括根据所述音频样本与接收到的文本查询的匹配对所述音频样本进行排序。4.如权利要求1所述的方法,其中,评估(12)所述音频样本包括根据所述音频样本与接收到的音频混合的相关性对所述音频样本进行排序。5.如权利要求1所述的方法,其中,评估(12)所述音频样本包括根据所述取回的音频样本和接收到的音频混合之间的音频特征相似度对所述音频样本进行排序。6.如权利要求1所述的方法,其中,所述辅助音频数据库包括互联网搜索引擎。7.如前述权利要求中任一项所述的方法,其中,分离(13)所述音频混合包括对所述音频混合应用非负矩阵分解(NMF)。8.如权利要求1所述的方法,其中,评估(12)所述音频样本和分离(13)所述音频混合是被共同执行的。9.如权利要求8所述的方法,其中,评估(12)所述音频样本和分离(13)所述音频混合是通过对所述音频混合和所述音频样本应用非...

【专利技术属性】
技术研发人员:曲昂·罕·玉·董阿列克谢·奥泽罗夫戴利亚·艾尔巴戴维
申请(专利权)人:汤姆逊许可公司
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1