【技术实现步骤摘要】
音频对齐方法、装置、计算机设备以及可读存储介质
本专利技术涉及数据处理
,特别涉及一种音频对齐方法、装置、计算机设备以及可读存储介质。
技术介绍
在音频处理过程中,经常会涉及音频对齐技术。例如,当需要将一个音频文件中的A的音色转换为B的音色时,可以训练一个音频转化模型,为此,可以采集多组音频,每组音频中包括A和B针对同一内容的音频文件,再基于该多组音频,进行模型训练,得到音频转换模型,利用该音频转化模型,可以实现将某个人的音色转换成另一种音色的目的。然而,由于每组音频中的音频文件之间可能存在起始时间、每个字的持续时长等等的不同,因此,需要对音频进行对齐。目前,所采用的音频对齐的方法包括:结合端点检测算法,确定出两个需要对齐的音频中每个单音或和弦的起始时间,然后基于恒Q变换,提取每个单音或和弦的多个色度特征值,以构成特征值向量,从而构建每个音频特征值矩阵,使用DTW(DynamicTimeWarping,动态时轴规整)算法规整特征值矩阵,实现音频对齐。然而,在上述过程中,确定每个单音或和弦的起始时间之后,再构建单音或和弦的特征值向量,计算量较大,需要耗费大量的时间。
技术实现思路
本专利技术实施例提供了一种音频对齐方法、装置、计算机设备以及可读存储介质,能够解决目前音频对齐方法中需要构建两个准备对齐的音频的特征值矩阵,导致计算量较大,耗费时间较长的问题。所述技术方案如下:一方面,提供了一种音频对齐方法,所述方法包括:获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱 ...
【技术保护点】
1.一种音频对齐方法,其特征在于,所述方法包括:获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值;基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值;将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐 ...
【技术特征摘要】
1.一种音频对齐方法,其特征在于,所述方法包括:获取第一音频的第一梅尔频谱和第二音频的第二梅尔频谱;提取所述第一梅尔频谱的第一梅尔倒谱参数、第一非周期参数和第一能量参数,提取所述第二梅尔频谱的第二梅尔倒谱参数、第二非周期参数和第二能量参数,所述第一音频和所述第二音频对应于相同的内容;基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围,所述第一目标频谱范围内的所述第一非周期参数大于预设非周期参数值,所述第一目标频谱范围内的所述第一能量参数小于预设能量参数值;基于所述第二非周期参数和所述第二能量参数,在所述第二梅尔频谱上确定第二目标频谱范围,所述第二目标频谱范围内的所述第二非周期参数大于所述预设非周期参数值,所述第二目标频谱范围内的所述第二能量参数小于所述预设能量参数值;将所述第一梅尔倒谱参数对应于所述第一目标频谱范围的倒谱参数置0,得到第三梅尔倒谱参数;将所述第二梅尔倒谱参数对应于所述第二目标频谱范围的倒谱参数置0,得到第四梅尔倒谱参数;将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐;基于所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐的路径,对齐所述第一梅尔频谱和所述第二梅尔频谱。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一非周期参数和所述第一能量参数,在所述第一梅尔频谱上确定第一目标频谱范围包括:获取第一非周期参数集合,将所述第一非周期参数集合对应到所述第一梅尔频谱,得到第一频谱范围,所述第一非周期参数集合包括所述多个大于所述预设非周期参数值的所述第一非周期参数;获取第一能量参数集合,将所述第一能量参数集合对应到所述第一梅尔频谱,得到第二频谱范围,所述第一能量参数集合包括所述多个小于所述预设能量参数值的所述第一能量参数;获取所述第一目标频谱范围,所述第一目标频谱范围为所述第一频谱范围和所述第二频谱范围的并集。3.根据权利要求1所述的方法,其特征在于,所述提取所述第一梅尔频谱的第一梅尔倒谱参数包括以下步骤:对所述第一音频进行预加重、分帧和加汉明窗处理;将处理过的所述第一音频进行快速傅里叶变换,得到所述第一音频的每一帧的频谱;将所述每一帧的频谱输入梅尔滤波器,得到所述第一梅尔频谱;基于所述第一梅尔频谱进行倒谱运算,得到所述第一梅尔倒谱参数。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一梅尔频谱进行倒谱运算,得到所述第一梅尔倒谱参数包括:对所述第一梅尔频谱进行取对数处理;将取对数处理后的所述第一梅尔频谱进行离散余弦变换,得到所述第一梅尔倒谱参数。5.根据权利要求1所述的方法,其特征在于,所述将所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐包括:采用动态时轴规整算法,求出对齐所述第三梅尔倒谱参数和所述第四梅尔倒谱参数的目标路径;基于所述目标路径,对所述第三梅尔倒谱参数和所述第四梅尔倒谱参数进行对齐。6.根据权利要求1所述的方法,其特征在于,所述第一梅尔倒谱参数和所述第二梅尔倒谱参数的维数为25维。7.根据权利要求1所述的方法,其特征在于,所述第一非...
【专利技术属性】
技术研发人员:劳振锋,
申请(专利权)人:广州酷狗计算机科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。