音频对齐方法、装置、计算机设备以及可读存储介质制造方法及图纸

技术编号:20274981 阅读:18 留言:0更新日期:2019-02-02 04:33
本发明专利技术公开了一种音频对齐方法、装置、计算机设备以及可读存储介质,属于音频处理技术领域。本发明专利技术基于第一音频的第一非周期参数和第一能量参数在第一梅尔频谱上确定出第一目标频谱范围,将第一梅尔倒谱参数对应于第一目标频谱范围的倒谱参数处理,便可得到能够实现对齐的第三梅尔倒谱参数,基于同样方法得到第四梅尔倒谱参数,从而节省确定每个音频的单音或和弦的起始时间,再提取每一个单音或和弦的特征值构建特征值矩阵的步骤,进而采用DTW算法对第三梅尔倒谱参数和第四梅尔倒谱参数进行对齐,从而减少了计算量,减少了时间。

【技术实现步骤摘要】
音频对齐方法、装置、计算机设备以及可读存储介质
本专利技术涉及数据处理
,特别涉及一种音频对齐方法、装置、计算机设备以及可读存储介质。
技术介绍
在音频处理过程中,经常会涉及音频对齐技术。例如,当需要将一个音频文件中的A的音色转换为B的音色时,可以训练一个音频转化模型,为此,可以采集多组音频,每组音频中包括A和B针对同一内容的音频文件,再基于该多组音频,进行模型训练,得到音频转换模型,利用该音频转化模型,可以实现将某个人的音色转换成另一种音色的目的。然而,由于每组音频中的音频文件之间可能存在起始时间、每个字的持续时长等等的不同,因此,需要对音频进行对齐。目前,所采用的音频对齐的方法包括:结合端点检测算法,确定出两个需要对齐的音频中每个单音或和弦的起始时间,然后基于恒Q变换,提取每个单音或和弦的多个色度特征值,以构成特征值向量,从而构建每个音频特征值矩阵,使用DTW(DynamicTimeWarping,动态时轴规整)算法规整特征值矩阵,实现音频对齐。然而,在上述过程中,确定每个单音或和弦的起始时间之后,再构建单音或和弦的特征值向量,计算量较大,需要耗费大量的时间。
技术实现思路
本专利技术实施例提供了一种音频对齐方法、装置、计算机设备以及可读存储介质,能够解决目前音频对齐方法中需要构建两个准备对齐的音频的特征值矩阵,导致计算量较大,耗费时间较长的问题。所述技术方案如下:一方面,提供了一种音频对齐方法,所述方法包括:获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值;基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值;将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。另一方面,提供了一种音频对齐装置,所述装置包括:获取模块,用于获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取模块,用于提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,还用于提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;范围确定模块,用于基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,还用于基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围;置零模块,用于将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;还用于将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;对齐模块,用于将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;还用于基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述音频对齐方法所执行的操作。一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述音频对齐方法所执行的操作。本专利技术实施例提供的技术方案带来的有益效果是:通过分别提取第一音频的第一梅尔倒谱参数、第一非周期参数和第一能量参数以及第二音频的第二梅尔倒谱参数、第二非周期参数和第二能量参数;基于第一非周期参数和第一能量参数在第一梅尔频谱上确定出第一目标频谱范围,将第一梅尔倒谱参数对应于第一目标频谱范围的倒谱参数处理,便可得到能够实现对齐的第三梅尔倒谱参数,基于同样方法得到第四梅尔倒谱参数,从而节省确定每个音频的单音或和弦的起始时间,再提取每一个单音或和弦的特征值构建特征值矩阵的步骤,进而采用DTW算法对第三梅尔倒谱参数和第四梅尔倒谱参数进行对齐,从而减少了计算量,减少了时间。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种音频对齐方法的流程图;图2是本专利技术实施例提供的一种音频对齐方法的流程图;图3是本专利技术实施例提供的一种音频对齐装置的结构示意图;图4是本专利技术实施例提供的一种计算机设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1是本专利技术实施例提供的一种音频对齐方法的流程示意图。参见图1,实施步骤如下:101、获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱。102、提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数。103、基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值。104、基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值。105、将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数。106、将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数。107、将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐。108、基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。本专利技术实施例提供的技术方案带来的有益效果至少是:通过分别提取第一音频的第一梅尔倒谱参数、第一非周期参数和第一能量参数以及第二音频的第二梅尔倒谱参数、第二非周期参数和第二能量参数;基于第一非周期参数和第一能量参数在第一梅尔频谱上确定出第一目标频谱范围,将第一梅尔倒谱参数对应于第一目标频谱范围的倒谱参数处理,便可得到能够实现对齐的第三梅尔倒谱参数,基于同样方法得到第四梅尔倒谱参数,从而节省确定每个音频本文档来自技高网...

【技术保护点】
1.一种音频对齐方法,其特征在于,所述方法包括:获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值;基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值;将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。...

【技术特征摘要】
1.一种音频对齐方法,其特征在于,所述方法包括:获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值;基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值;将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围包括:获取第一非周期参数集合,将所述第一非周期参数集合对应到所述第一梅尔频谱,得到第一频谱范围,所述第一非周期参数集合包括所述多个大于所述预设非周期参数值的所述第一非周期参数;获取第一能量参数集合,将所述第一能量参数集合对应到所述第一梅尔频谱,得到第二频谱范围,所述第一能量参数集合包括所述多个小于所述预设能量参数值的所述第一能量参数;获取所述第一目标频谱范围,所述第一目标频谱范围为所述第一频谱范围和所述第二频谱范围的并集。3.根据权利要求1所述的方法,其特征在于,所述提取所述第一梅尔频谱的第一梅尔倒谱参数包括以下步骤:对所述第一音频进行预加重、分帧和加汉明窗处理;将处理过的所述第一音频进行快速傅里叶变换,得到所述第一音频的每一帧的频谱;将所述每一帧的频谱输入梅尔滤波器,得到所述第一梅尔频谱;基于所述第一梅尔频谱进行倒谱运算,得到所述第一梅尔倒谱参数。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一梅尔频谱进行倒谱运算,得到所述第一梅尔倒谱参数包括:对所述第一梅尔频谱进行取对数处理;将取对数处理后的所述第一梅尔频谱进行离散余弦变换,得到所述第一梅尔倒谱参数。5.根据权利要求1所述的方法,其特征在于,所述将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐包括:采用动态时轴规整算法,求出对齐所述第三梅尔倒谱参数和所述第四梅尔倒谱参数的目标路径;基于所述目标路径,对所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐。6.根据权利要求1所述的方法,其特征在于,所述第一梅尔倒谱参数和所述第二梅尔倒谱参数的维数为25维。7.根据权利要求1所述的方法,其特征在于,所述第一非...

【专利技术属性】
技术研发人员:劳振锋
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1