音频处理方法和音频处理装置以及训练方法制造方法及图纸

技术编号:12931777 阅读:63 留言:0更新日期:2016-02-29 03:38
本申请描述了音频处理方法和音频处理装置以及训练方法。根据本申请的实施方式,重音识别器用于从多个音频帧中识别重音帧,产生包括针对多个音频帧的重音和/或非重音判定的概率得分的重音序列。然后速度估计器用于基于重音序列来估计多个音频帧的速度序列。所述实施方式可以很好地适应于速度的变化,并且可以进一步用于正确地跟踪拍子。

【技术实现步骤摘要】
【专利摘要】本申请描述了。根据本申请的实施方式,重音识别器用于从多个音频帧中识别重音帧,产生包括针对多个音频帧的重音和/或非重音判定的概率得分的重音序列。然后速度估计器用于基于重音序列来估计多个音频帧的速度序列。所述实施方式可以很好地适应于速度的变化,并且可以进一步用于正确地跟踪拍子。【专利说明】
本专利技术总体上涉及音频信号处理。更具体地,本专利技术的实施方式涉及用于估计音 频片段的速度值的音频处理方法和音频处理装置以及用于训练音频分类器的训练方法。
技术介绍
虽然一些现有的速度估计方法非常成功,但是这些方法仍然存在一定的局限性和 问题。例如,这些方法主要适用于范围有限的流派和乐器,比如具有固定速度的鼓点或具有 "强拍"的流行舞蹈音乐。然而,具有挑战性的是当面对多种多样的音乐比如具有弱音符的 音乐、拍子速度随时间变化的音乐或具有非常嘈杂和复杂的音乐音符特征的音乐时保持性 能/准确度。
技术实现思路
根据本申请的一种实施方式,提供了一种音频处理装置,包括:重音识别器,用于 从多个音频帧中识别重音帧,产生重音序列,该重音序列包括针对多个音频帧的重音和/ 或非重音判定的概率得分;以及速度估计器,用于基于该重音序列来估计多个音频帧的速 度序列。 根据另一种实施方式,提供了一种音频处理方法,包括:从多个音频帧中识别重音 帧,产生重音序列,该重音序列包括针对多个音频帧的重音和/或非重音判定的概率得分; 以及基于该重音序列估计多个音频帧的速度序列。 根据又一种实施方式,提供了一种用于训练用于识别音频片段中的重音/非重音 帧的音频分类器的方法,包括:将训练音频片段变换成多个帧;对多个帧中的重音帧进行 标记;从两个相邻重音帧之间随机地选择至少一个帧,并且将该帧标记为非重音帧;以及 使用重音帧连同非重音帧一起作为训练数据集来训练音频分类器。 另一种实施方式涉及一种其上记录有计算机程序指令的计算机可读介质,当计算 机程序指令由处理器执行时,指令使得处理器能够执行如上所述的音频处理方法。 又一种实施方式涉及一种其上记录有计算机程序指令的计算机可读介质,当计算 机程序指令由处理器执行时,指令使得处理器能够执行如上所述的用于训练用于识别音频 片段中的重音/非重音帧的音频分类器的方法。 根据本申请的各实施方式,音频处理装置和方法至少可以很好地适应于速度的变 化,并且还可以用于正确地跟踪拍子。 【专利附图】【附图说明】 在附图中以示例而非限制的方式来说明本专利技术,其中相似的附图标记指代相似的 兀件,在附图中: 图1是示出了根据本专利技术的实施方式的示例音频处理装置100的框图; 图2是示出了音频处理装置100中包括的重音识别器200的框图; 图3是示出了由不同的音频分类器针对一段舞蹈音乐的输出的曲线图; 图4是示出了由不同的音频分类器针对其中第一段为包含有节奏拍子的音乐片 段以及后面的一段为没有拍子的无节奏音频的拼接信号的输出的曲线图; 图5是示出了用于对在音频处理装置的实施方式中使用的音频分类器进行训练 的方法的流程图; 图6示出了基本冲击声音分量的示例集,其中X轴表示频点(frequency bins)并 且y轴表示分量索引; 图7示出了与音频处理装置的实施方式中的第一特征提取器有关的变型; 图8示出了与音频处理装置的实施方式中的第二特征提取器有关的实施方式和 变型; 图9示出了与音频处理装置的实施方式中的速度估计器有关的实施方式和变型; 图10示出了与音频处理装置的实施方式中的路径度量单元有关的变型; 图11示出了与音频处理装置的实施方式中的拍子跟踪单元有关的实施方式; 图12是示出了音频处理装置的实施方式中的前趋(predecessor)跟踪单元的操 作的示意图; 图13是示出了用于实现本申请的各个方面的示例性系统的框图; 图14是示出了根据本申请的音频处理方法的实施方式的流程图; 图15是示出了根据本申请的音频处理方法中的识别重音帧的操作的实现的流程 图; 图16是示出了基于重音序列估计速度序列的操作的实现的流程图; 图17是示出了动态规划算法中使用的路径度量的计算的流程图; 图18和图19是示出了跟踪拍子序列的操作的实现的流程图;以及 图20是示出了在跟踪拍子序列的操作中的跟踪在前的候选拍子位置的操作的流 程图。 【具体实施方式】 下面参照附图描述本专利技术的实施方式。应当指出,为了简洁,在附图和描述中省略 了与本领域的技术人员公知的但是对于理解本申请而言并非必需的部件和处理有关的表 示和描述。 本领域的技术人员应当理解,本专利技术的各个方面可以实施为系统、设备(例如移动 电话、便携式媒体播放器、个人计算机、服务器、电视机机顶盒或数字录像机或者任意其他 媒体播放器)、方法或者计算机程序产品。因此,本专利技术的各个方面可以采用硬件的实施方 式的形式、软件的实施方式(包括固件、驻留软件、微代码等)的形式或者软件方面与硬件方 面相结合的实施方式的形式,在本文中其可以总体上被称为"电路"、"模块"或"系统"。此 夕卜,本专利技术的各个方面可以采用包括在一个或更多个计算机可读介质中的计算机程序产品 的形式,其中,计算机可读介质上包括有计算机可读程序代码。 可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算 机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电 子、磁、光学、电磁、红外或半导体系统、装置或设备、或者以上的任意适当的组合。计算机可 读存储介质的更具体的示例(非穷举性的列举)可以包括:具有一条或更多条导线的电气连 接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只 读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存 储设备或者以上的任意适当组合。在本文献的上下文中,计算机可读存储介质可以是能够 包含或者存储用于由指令执行系统、装置或设备来使用或者与其结合使用的程序的任意有 形的介质。 计算机可读信号介质可以包括其中包括有计算机可读程序代码的传播的数据信 号,该数据信号为基带信号或者作为载波的一部分。这样的传播的信号可以采用各种形式, 包括但不限于电磁信号或光学信号或者其任意适当的组合。 计算机可读信号介质可以为不是计算机可读存储介质并且可以传递、传播或传输 用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任意计算机可读介质。 包括在计算机可读介质上的程序代码可以使用任意适当的介质发送,介质包括但 不限于无线、有线线路、光纤光缆、射频(RF)等或者以上的任意适当的组合。 用于执行本专利技术的各个方面的操作的计算机程序代码可以用一种或更多种编程 语目的任意组合来编写,编程语目包括面向对象的编程语目比如Java、Smalltalk、C++等 以及传统的过程编程语言比如"C"编程语言或类似的编程语言。程序代码可以在用户的计 算机上作为单独软件包整体执行,或者部分在用户的计算机上执行且部分在远程计算机上 执行,或者整体在远程计算机或服务器上执行。在本文档来自技高网...

【技术保护点】
一种音频处理装置,包括:重音识别器,用于从多个音频帧中识别重音帧,产生重音序列,所述重音序列包括针对所述多个音频帧的重音和/或非重音判定的概率得分;以及速度估计器,用于基于所述重音序列来估计所述多个音频帧的速度序列。

【技术特征摘要】

【专利技术属性】
技术研发人员:王珺芦烈
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1