音频对齐的方法和装置制造方法及图纸

技术编号：20078086 阅读：32 留言：0更新日期：2019-01-15 01:33

本申请提供了一种音频对齐的方法和装置，属于计算机技术领域。所述方法包括：在将第一音频和第二音频进行对齐处理时，可以对第一音频和第二音频分别进行分帧处理，得到第一音频的音频帧和第二音频的音频帧，然后确定第一音频中各音频帧与第二音频中各音频帧的距离，对第一音频中各音频帧与第二音频中各音频帧的距离进行调整，其中，对于第一音频中的第一音频帧和第二音频中的第二音频帧，根据第一音频帧的发音信息和第二音频帧的发音信息，对第一音频帧和第二音频帧的距离进行调整，发音信息包括非周期性特征和/或能量特征；根据所有调整后的距离，选择第一音频和第二音频的最佳对齐路径。采用本申请，可以提高音频对齐的准确率。

Audio alignment methods and devices

This application provides a method and device for audio alignment, which belongs to the field of computer technology. The method includes: when aligning the first audio and the second audio, the first audio and the second audio can be subframe processed separately to obtain the audio frame of the first audio and the audio frame of the second audio, and then determine the distance between each audio frame in the first audio and each audio frame in the second audio, and the distance between each audio frame in the first audio and each audio frame in the second audio. The distance between the first audio frame and the second audio frame in the first audio is adjusted according to the pronunciation information of the first audio frame and the second audio frame. The pronunciation information includes non-periodic features and/or energy features. The first audio and the second audio frames are selected according to all the adjusted distances. The best alignment path for the second audio. This application can improve the accuracy of audio alignment.

全部详细技术资料下载

【技术实现步骤摘要】
音频对齐的方法和装置
本专利技术涉及计算机
，特别涉及一种音频对齐的方法和装置。
技术介绍
随着计算机技术的发展，越来越多的场景中需要用到音频对齐，例如，语音识别场景中、音频调节场景中等。相关技术中，音频对齐的方式一般是采用DTW(DynamicTimeWarping，动态时间规整)算法，将两个待对齐的音频进行分帧处理，然后计算两个待对齐音频的各音频帧之间的距离(该距离用于反映音频帧之间的相似度)，基于距离，选择最佳对齐路径，进行音频对齐。由于在进行音频对齐时，仅使用了DTW算法确定出的距离，有可能会使音频对齐不准确。
技术实现思路
为了解决现有技术的问题，本专利技术实施例提供了一种音频对齐的方法和装置。所述技术方案如下：第一方面，提供了一种音频对齐的方法，所述方法包括：对第一音频进行分帧处理，并对第二音频进行分帧处理；根据动态时间规整DTW算法，确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离；对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述...

【技术保护点】
1.一种音频对齐的方法，其特征在于，所述方法包括：对第一音频进行分帧处理，并对第二音频进行分帧处理；根据动态时间规整DTW算法，确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离；对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，所述第一音频帧为所述第一音频中的任一音频帧，所述第二音频帧为所述第二音频中的任一音频帧，所述发音信息包括非周期性特征和/或能量特征；根据所有调整后的距离，选择所述第一音频和所述第二音频的最佳对齐路径。

【技术特征摘要】
1.一种音频对齐的方法，其特征在于，所述方法包括：对第一音频进行分帧处理，并对第二音频进行分帧处理；根据动态时间规整DTW算法，确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离；对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，所述第一音频帧为所述第一音频中的任一音频帧，所述第二音频帧为所述第二音频中的任一音频帧，所述发音信息包括非周期性特征和/或能量特征；根据所有调整后的距离，选择所述第一音频和所述第二音频的最佳对齐路径。2.根据权利要求1所述的方法，其特征在于，所述发音信息包括能量特征；所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，包括：确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值；根据预先存储的差值范围与调整值的对应关系，确定所述差值所属的差值范围对应的调整值；基于所述调整值，对所述第一音频帧和所述第二音频帧的距离进行调整。3.根据权利要求1所述的方法，其特征在于，所述发音信息包括非周期性特征；所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，包括：如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征，确定所述第一音频帧和所述第二音频帧均表现为非周期性，则获取预先存储的衰减系数；基于所述衰减系数，对所述第一音频帧和所述第二音频帧的距离进行调整。4.根据权利要求1所述的方法，其特征在于，所述发音信息包括非周期性特征和能量特征；所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，包括：如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征，确定所述第一音频帧和所述第二音频帧均表现为非周期性，则获取预先存储的衰减系数；确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值；根据预先存储的差值范围与调整值的对应关系，确定所述差值所属的差值范围对应的调整值；基于所述调整值和所述衰减系数，对所述第一音频帧和所述第二音频帧的距离进行调整。5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：如果所述第一音频帧中存在AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况，则确定所述第一音频帧表现为非周期性；如果所述第二音频帧中存在平均幅度差函数AMDF的凹点强度超过第一预设数值、过零...

【专利技术属性】
技术研发人员：肖纯智，
申请(专利权)人：广州酷狗计算机科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人