动态音频源分离的方法和系统技术方案

技术编号：14879385 阅读：60 留言：0更新日期：2017-03-24 02:18

描述了一种音频源分离的方法和系统(20)。该方法包括：接收(10)音频混合和与音频混合相关联的至少一个文本查询；从辅助音频数据库中取回(11)至少一个音频样本；评估(12)取回的音频样本；以及使用音频样本将音频混合分离(13)成多个音频源。相应的系统(20)包括被配置为实现该方法的接收单元(21)和处理器(22)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频源分离的方法和系统。具体地，该方法和系统针对音频源分离利用基于组合的文本和示例的方法。本专利技术还涉及适用于这种方法或系统的计算机可读介质。
技术介绍
音频源分离涉及将音频混合分解为其组成声源。这提供了在音频/语音增强、后期制作、3D音频等中宽泛的应用范围。尤其，盲源分离(BSS)假定在不具有关于源、混合、和/或生成混合的混合过程的情况下执行音频源分离。另一方面，消息源分离(ISS)允许利用来自一些辅助信息的指导来执行音频源分离。大多数用于监督式音频源分离的现有方法是基于示例的方法。这些方法的先决条件是事先获得一些类似于目标音频源的音频样本，这通常比较繁琐且并非总是可能的。当音频样本事先是不可用的时，替代地，可以使用简单文本查询来搜索音频文件。该用于音频源分离的基于文本查询的方法对于用户更为容易并且更为有效，因为用户仅需要例如听音频混合并提供描述他们想要分离的内容的文字。然而，尽管在[XII]中描述了基于本文查询的方法，但是目前为止还没有任何能够有效地处理噪声或非代表性取回示例的实际解决方案。对于基于示例的音频源分离，单频道源分离是欠定的问题，并因此是在最具挑战的问题之中。若干算法提议考虑预先学习单个声源的频谱特性，以便将它们从音频混合中分离。为了实现该目的，需要获得初期训练数据来学习并指示单个目标源的频谱特性。基于非负矩阵分解(NMF)[I,II,III]或其被称为概率性潜在分量分析(PLCA)[IV,V]的概率性公式来提出监督式算法的类别。然而，当训练数据不可用或不足以代表音频源时，上述方法在不具有关于源的补充信息的情况下变得不再适...
<a href="http://www.xjishu.com/zhuanli/21/201580026539.html" title="动态音频源分离的方法和系统原文来自X技术">动态音频源分离的方法和系统</a>

【技术保护点】
一种针对音频混合的音频源分离的方法，该方法由处理器执行，包括：‑接收(10)音频混合和与所述音频混合相关联的至少一个文本查询；‑通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从所述辅助音频数据库中取回(11)至少一个音频样本；‑评估(12)从所述辅助音频数据库中取回的音频样本；以及‑使用所述音频样本将所述音频混合分离(13)成多个音频源。

【技术特征摘要】
【国外来华专利技术】2014.05.15 EP 14305712.31.一种针对音频混合的音频源分离的方法，该方法由处理器执行，包括：-接收(10)音频混合和与所述音频混合相关联的至少一个文本查询；-通过将文本查询和与辅助音频数据库相关联的语义信息进行匹配从所述辅助音频数据库中取回(11)至少一个音频样本；-评估(12)从所述辅助音频数据库中取回的音频样本；以及-使用所述音频样本将所述音频混合分离(13)成多个音频源。2.如权利要求1所述的方法，其中，分离(13)所述音频混合根据所述音频样本的评估结果使用所述音频样本的子集。3.如权利要求1所述的方法，其中，评估(12)所述音频样本包括根据所述音频样本与接收到的文本查询的匹配对所述音频样本进行排序。4.如权利要求1所述的方法，其中，评估(12)所述音频样本包括根据所述音频样本与接收到的音频混合的相关性对所述音频样本进行排序。5.如权利要求1所述的方法，其中，评估(12)所述音频样本包括根据所述取回的音频样本和接收到的音频混合之间的音频特征相似度对所述音频样本进行排序。6.如权利要求1所述的方法，其中，所述辅助音频数据库包括互联网搜索引擎。7.如前述权利要求中任一项所述的方法，其中，分离(13)所述音频混合包括对所述音频混合应用非负矩阵分解(NMF)。8.如权利要求1所述的方法，其中，评估(12)所述音频样本和分离(13)所述音频混合是被共同执行的。9.如权利要求8所述的方法，其中，评估(12)所述音频样本和分离(13)所述音频混合是通过对所述音频混合和所述音频样本应用非...

【专利技术属性】
技术研发人员：曲昂·罕·玉·董，阿列克谢·奥泽罗夫，戴利亚·艾尔巴戴维，
申请(专利权)人：汤姆逊许可公司，
类型：发明
国别省市：法国;FR

全部详细技术资料下载我是这个专利的主人