用于基于内容的检索的音频信号的潜在空间表示制造技术

技术编号:38334928 阅读:11 留言:0更新日期:2023-08-02 09:15
提供了一种方法和系统,该方法和系统用于从表现出音高、音色、衰减、混响和其他心理声学属性的变化的数字音频信号中提取特征,并且从提取的特征中学习用于生成数字音频信号的上下文潜在空间表示的人工神经网络模型。还提供了一种方法和系统,该方法和系统用于学习用于生成数字音频信号的一致潜在空间表示的人工神经网络模型,其中生成的潜在空间表示是可比较的,以便确定数字音频信号之间的心理声学相似性。还提供了一种方法和系统,该方法和系统用于从数字音频信号中提取特征,并且从提取的特征中学习用于生成数字音频信号的潜在空间表示的人工神经网络模型,该潜在空间表示负责选择表示信号之间的心理声学差异的信号的突出属性。出属性。出属性。

【技术实现步骤摘要】
【国外来华专利技术】用于基于内容的检索的音频信号的潜在空间表示


[0001]本专利技术涉及用于学习和使用数字音频信号的潜在空间表示的计算机实现的方法和系统,并且更具体地,涉及在基于音频内容的检索的上下文中的此类计算机实现的方法和系统。

技术介绍

[0002]心理声学涵盖对声音空间和人类的声音感知机制的研究。与视觉信息不同,人类通常更难使用客观术语口头地描述声音的某些属性。例如,没有广泛接受的客观术语来描述音色的差异。
[0003]不同的人可能会以不同的方式描述相同的音色。例如,一个人可通过发出声音的乐器来描述音色,另一个人可通过声音的质量和音调来描述音色(例如,响亮、刺耳、笛声、难听、恼人、尖锐等),并且又一个人可通过声音的情绪来描述音色(例如,兴奋、愤怒、快乐、悲伤等)。其他不容易描述的声音元素、尤其是音乐中的声音元素包括节奏、旋律、力度和统一感。
[0004]尽管有这个困难,但许多现有的音频内容检索计算系统仍是基于关键词的。也就是说,音频内容用描述音频内容的关键词来标记(例如,加索引)。此类计算系统的用户然后使用关键词来搜索或浏览期望的音频内容。
[0005]当音频内容用客观属性(例如,诸如艺术家姓名、歌曲标题、音乐流派、半音阶的音高、每分钟节拍数或其他客观属性)标记/加索引时,关键字标记/索引的效果很好。然而,当用户难以用文字清楚地表达正在寻找的音频内容,或者在心理声学意义上使其对用户突出的期望音频内容的属性是主观的或多因素的时,基于关键字来搜索或浏览音频内容的效果不是很好。例如,用户可能正在寻找听起来像特定歌手用特定乐句演唱特定旋律但不一定恰好是那个歌手、那个旋律或那个乐句的声乐样本。同样地,用户可能正在寻找听起来与特定节奏模式相似但不一定相同的鼓循环。
[0006]长期以来,对相似声音的辨识一直备受关注。存在用于检测它们的强大的计算机实现的技术。用于基于计算机的声音相似性辨识的数字音频信号的特征通常包括手动地选择的特征,诸如数字音频信号的频谱质心、频谱带宽或频谱平坦度。存在用于声音相似性检测的特征选择的手动方法,所述手动方法提供了充分了解和控制如何表示数字音频信号的优点,并且允许微调根据手头特定实现方式的要求选择的特征的组成。不幸的是,这些方法常常因忽略了有用的判别特征、不知道有用的判别特征或使用大量冗余特征而失败。
[0007]本专利技术解决了这个和其他需要。
[0008]在本节中描述的方法是可采用的方法,但不一定是先前构思或采用的方法。因此,除非另有说明,否则不应假设在本节中描述的任何方法仅仅因为它们包含在本节中就符合现有技术的条件。
附图说明
[0009]本专利技术的一些实施方案以示例的方式而非以限制的方式在附图中示出,并且在附图中相似的附图标记指代相似的元件并且在附图中:
[0010]图1是根据本专利技术的一些实施方案的用于学习数字音频信号的潜在空间表示的系统的示意图。
[0011]图2是根据本专利技术的一些实施方案的用于学习数字音频信号的潜在空间表示的系统中的人工神经网络的示意图。
[0012]图3是根据本专利技术的一些实施方案的用于学习数字音频信号的潜在空间表示的系统中的人工神经网络的架构的示意图。
[0013]图4是根据本专利技术的一些实施方案的由用于学习数字音频信号的潜在空间表示的系统执行的过程的流程图。
[0014]图5是根据本专利技术的一些实施方案的基于音频内容的检索系统中的相似声音应用程序的示例图形用户界面的实体模型。
[0015]图6是根据本专利技术的一些实施方案的响应于最终用户的输入的图5的示例图形用户界面中的状态改变的实体模型。
[0016]图7是可用来实现本专利技术的一些实施方案的示例计算装置的示意图。
[0017]图8是用于控制图7的示例计算装置的操作的示例软件系统的示意图。
[0018]尽管附图出于示出清楚示例的目的而示出了本专利技术的一些实施方案,但是本专利技术的一些实施方案可省略、添加、重新排序或修改图中所示的任何元件。
具体实施方式
[0019]在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本专利技术的一些实施方案的透彻理解。然而,将显而易见的是,可在没有这些具体细节的情况下实践本专利技术的一些实施方案。在其他情况下,公知的结构和装置以框图形式示出以避免不必要地模糊本专利技术的一些实施方案。
[0020]1.0总体概述
[0021]2.0示例潜在空间表示学习系统实现方式
[0022]2.1 循环和单发
[0023]2.2 声音内容类别
[0024]2.3读取/解码逻辑
[0025]2.4变换逻辑
[0026]2.4.1预处理
[0027]2.4.2持续时间归一化
[0028]2.4.3时频表示
[0029]2.4.4循环信号扩展
[0030]2.5学习逻辑
[0031]2.5.1示例人工神经网络
[0032]2.5.2示例人工神经网络架构
[0033]3.0示例潜在空间表示学习过程
[0034]4.0 声音嵌入的示例应用
[0035]4.1 相似声音搜索
[0036]4.2 声音作为搜索输入
[0037]4.3 近似重复的声音检测
[0038]5.0实现机制—硬件概述
[0039]6.0实现机制—软件概述
[0040]7.0公开的其他方面
[0041]‑‑‑
[0042]1.0总体概述
[0043]根据本专利技术的一些实施方案,提供了一种方法和系统,所述方法和系统用于从表现出音高、音色、衰减、混响和其他心理声学属性的变化的数字音频信号中提取特征,并且从所述提取的特征中学习用于生成数字音频信号的上下文潜在空间表示的人工神经网络模型,其中学习用于生成此类上下文潜在空间表示的此类模型混淆了现有的学习系统和方法。
[0044]根据本专利技术的一些实施方案,提供了一种方法和系统,所述方法和系统用于学习用于生成数字音频信号的一致潜在空间表示的人工神经网络模型,其中所述生成的潜在空间表示是可比较的,以便确定数字音频信号之间的心理声学相似性,并且其中学习用于生成此类一致地可比较的学习潜在空间表示的此类模型混淆了现有的学习系统和方法。
[0045]根据本专利技术的一些实施方案,提供了一种方法和系统,所述方法和系统用于从数字音频信号中提取特征,并且从所述提取的特征中学习用于生成数字音频信号的潜在空间表示的人工神经网络模型,所述潜在空间表示负责选择表示所述信号之间的心理声学差异的所述信号的突出属性,其中此类选择混淆了现有方法。
[0046]根据本专利技术的一些实施方案,机器学习技术用于以向量或数字代码组(在本文中称为“声音嵌入”)的形式学习数字音频信号的潜在空间表示。可以无监督的方式学习声音嵌入,从而减少或消除对具有目标变量(标签)的训练示例的手动生成或计算机生成的标记的需要。另外,与更手动的方法相比,学习到的声音嵌入可能具有更高的质量(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:读取与特定声音内容类别相关联的一组数字音频信号源中的特定数字音频信号源;基于所述特定数字音频信号来生成时频表示;使用人工神经网络学习提供所述时频表示的潜在空间表示的一组数字代码,其中所述一组数字代码具有小于所述时频表示的维数的维数;对所述特定声音内容类别中的所述一组数字音频信号源中的多个其他数字音频信号源中的每一者重复所述读取、所述生成和所述学习以训练所述人工神经网络;从经训练的人工神经网络中获得一组学习的模型参数;以及将用于所述特定声音内容类别的所述一组学习的模型参数存储在计算机存储介质中。2.如权利要求1所述的方法,其还包括:基于与所述特定声音内容类别相关联的第一数字音频信号来生成第一时频表示;使用所述一组学习的模型参数来计算第一组数字代码,所述第一组数字代码提供所述第一时频表示的潜在空间表示;基于与所述特定声音内容类别相关联的第二数字音频信号来生成第二时频表示;使用所述一组学习的模型参数来计算第二组数字代码,所述第二组数字代码提供所述第二时频表示的潜在空间表示;以及计算所述第一组数字代码与所述第二组数字代码之间的距离。3.如权利要求2所述的方法,其还包括:基于所述距离,致使在计算机图形用户界面中呈现所述第一数字音频信号和所述第二数字音频信号涵盖相似声音的指示。4.如权利要求2所述的方法,其还包括:通过数据通信网络从计算装置接收所述第一数字音频信号;并且其中所述第一数字音频信号由所述计算装置使用所述计算装置的传声器或操作性地耦合到所述计算装置的所述传声器来捕获,所述传声器记录人类可听的演奏。5.如权利要求2所述的方法,其还包括:将所述距离与距离阈值进行比较;以及基于所述距离低于所述距离阈值,致使在计算机图形用户界面中呈现所述第一数字音频信号和所述第二数字音频信号涵盖近似重复的声音的指示。6.如权利要求5所述的方法,其还包括:基于所述特定声音内容类别来选择所述距离阈值。7.如权利要求5所述的方法,其还包括:基于所述第一组数字代码与所述第二组数字代码之间的余弦相似性来计算所述第一组数字代码与所述第二组数字代码之间的所述距离。8.如...

【专利技术属性】
技术研发人员:A
申请(专利权)人:分散式创作股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1