This application provides a method and device for audio alignment, which belongs to the field of computer technology. The method includes: when aligning the first audio and the second audio, the first audio and the second audio can be subframe processed separately to obtain the audio frame of the first audio and the audio frame of the second audio, and then determine the distance between each audio frame in the first audio and each audio frame in the second audio, and the distance between each audio frame in the first audio and each audio frame in the second audio. The distance between the first audio frame and the second audio frame in the first audio is adjusted according to the pronunciation information of the first audio frame and the second audio frame. The pronunciation information includes non-periodic features and/or energy features. The first audio and the second audio frames are selected according to all the adjusted distances. The best alignment path for the second audio. This application can improve the accuracy of audio alignment.
【技术实现步骤摘要】
音频对齐的方法和装置
本专利技术涉及计算机
,特别涉及一种音频对齐的方法和装置。
技术介绍
随着计算机技术的发展,越来越多的场景中需要用到音频对齐,例如,语音识别场景中、音频调节场景中等。相关技术中,音频对齐的方式一般是采用DTW(DynamicTimeWarping,动态时间规整)算法,将两个待对齐的音频进行分帧处理,然后计算两个待对齐音频的各音频帧之间的距离(该距离用于反映音频帧之间的相似度),基于距离,选择最佳对齐路径,进行音频对齐。由于在进行音频对齐时,仅使用了DTW算法确定出的距离,有可能会使音频对齐不准确。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种音频对齐的方法和装置。所述技术方案如下:第一方面,提供了一种音频对齐的方法,所述方法包括:对第一音频进行分帧处理,并对第二音频进行分帧处理;根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。可选的,所述非周期性特征包括平均幅度差函数AMDF的凹点强度、过零率、相关峰中的一种或多种。可选的,所述发音信息包括能量特征;所述根据所述第一音频帧的发音信息 ...
【技术保护点】
1.一种音频对齐的方法,其特征在于,所述方法包括:对第一音频进行分帧处理,并对第二音频进行分帧处理;根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。
【技术特征摘要】
1.一种音频对齐的方法,其特征在于,所述方法包括:对第一音频进行分帧处理,并对第二音频进行分帧处理;根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。2.根据权利要求1所述的方法,其特征在于,所述发音信息包括能量特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值,对所述第一音频帧和所述第二音频帧的距离进行调整。3.根据权利要求1所述的方法,其特征在于,所述发音信息包括非周期性特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征,确定所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;基于所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。4.根据权利要求1所述的方法,其特征在于,所述发音信息包括非周期性特征和能量特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征,确定所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值和所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:如果所述第一音频帧中存在AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况,则确定所述第一音频帧表现为非周期性;如果所述第二音频帧中存在平均幅度差函数AMDF的凹点强度超过第一预设数值、过零...
【专利技术属性】
技术研发人员:肖纯智,
申请(专利权)人:广州酷狗计算机科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。