音频对齐的方法和装置制造方法及图纸

技术编号:20078086 阅读:21 留言:0更新日期:2019-01-15 01:33
本申请提供了一种音频对齐的方法和装置,属于计算机技术领域。所述方法包括:在将第一音频和第二音频进行对齐处理时,可以对第一音频和第二音频分别进行分帧处理,得到第一音频的音频帧和第二音频的音频帧,然后确定第一音频中各音频帧与第二音频中各音频帧的距离,对第一音频中各音频帧与第二音频中各音频帧的距离进行调整,其中,对于第一音频中的第一音频帧和第二音频中的第二音频帧,根据第一音频帧的发音信息和第二音频帧的发音信息,对第一音频帧和第二音频帧的距离进行调整,发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择第一音频和第二音频的最佳对齐路径。采用本申请,可以提高音频对齐的准确率。

Audio alignment methods and devices

This application provides a method and device for audio alignment, which belongs to the field of computer technology. The method includes: when aligning the first audio and the second audio, the first audio and the second audio can be subframe processed separately to obtain the audio frame of the first audio and the audio frame of the second audio, and then determine the distance between each audio frame in the first audio and each audio frame in the second audio, and the distance between each audio frame in the first audio and each audio frame in the second audio. The distance between the first audio frame and the second audio frame in the first audio is adjusted according to the pronunciation information of the first audio frame and the second audio frame. The pronunciation information includes non-periodic features and/or energy features. The first audio and the second audio frames are selected according to all the adjusted distances. The best alignment path for the second audio. This application can improve the accuracy of audio alignment.

【技术实现步骤摘要】
音频对齐的方法和装置
本专利技术涉及计算机
,特别涉及一种音频对齐的方法和装置。
技术介绍
随着计算机技术的发展,越来越多的场景中需要用到音频对齐,例如,语音识别场景中、音频调节场景中等。相关技术中,音频对齐的方式一般是采用DTW(DynamicTimeWarping,动态时间规整)算法,将两个待对齐的音频进行分帧处理,然后计算两个待对齐音频的各音频帧之间的距离(该距离用于反映音频帧之间的相似度),基于距离,选择最佳对齐路径,进行音频对齐。由于在进行音频对齐时,仅使用了DTW算法确定出的距离,有可能会使音频对齐不准确。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种音频对齐的方法和装置。所述技术方案如下:第一方面,提供了一种音频对齐的方法,所述方法包括:对第一音频进行分帧处理,并对第二音频进行分帧处理;根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。可选的,所述非周期性特征包括平均幅度差函数AMDF的凹点强度、过零率、相关峰中的一种或多种。可选的,所述发音信息包括能量特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值,对所述第一音频帧和所述第二音频帧的距离进行调整。可选的,所述发音信息包括非周期性特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:如果所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;基于所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。可选的,所述发音信息包括非周期性特征和能量特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:如果所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值和所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。可选的,所述方法还包括:如果所述第一音频帧中存在AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况,则确定所述第一音频帧表现为非周期性;如果所述第二音频帧中存在平均幅度差函数AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况,则确定所述第二音频帧表现为非周期性。第二方面,提供了一种音频对齐的装置,所述装置包括:分帧模块,用于对第一音频进行分帧处理,并对第二音频进行分帧处理;距离确定模块,用于根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;路径选择模块,用于根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。可选的,所述非周期性特征包括平均幅度差函数AMDF的凹点强度、过零率、相关峰中的一种或多种。可选的,所述发音信息包括能量特征;所述距离确定模块,用于:确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值,对所述第一音频帧和所述第二音频帧的距离进行调整。可选的,所述发音信息包括非周期性特征;所述距离确定模块,用于:如果所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;基于所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。可选的,所述发音信息包括非周期性特征和能量特征;所述距离确定模块,用于:如果所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值和所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。可选的,所述距离确定模块,还用于:如果所述第一音频帧中存在AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况,则确定所述第一音频帧表现为非周期性;如果所述第二音频帧中存在平均幅度差函数AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况,则确定所述第二音频帧表现为非周期性。本专利技术实施例提供的技术方案带来的有益效果至少包括:本专利技术实施例中,在使用DTW算法确定出第一音频中各音频帧与第二音频中各音频帧的距离后,还使用各音频帧的发音信息对各个距离进行调整,后续可以使用调整后的距离,选择第一音频和第二音频的最佳对齐路径。这样,由于在确定出距离后,还基于发音信息进行调整,可以使距离更准确,进而可以找到更准确的最佳对齐路径。附图说明图1是本专利技术实施例提供的一种音频对齐的方法流程图;图2是本专利技术实施例提供的一种音频帧的示意图;图3是本专利技术实施例提供的一种确定距离的示意图;图4是本专利技术实施例提供的一种确定距离的示意图;图5是本专利技术实施例提供的一种选择最佳路径的示意图;图6是本专利技术实施例提供的一种音频对齐的装置的结构示意图;图7是本专利技术实施例提供的一种终端的结构示意图;图8是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术实施例提供了一种音频对齐的方法,该方法的执行主体可以是终端或服务器,终端可以是电脑、手机、平板电脑等,服务器可以是进行音频对齐处理的应用程序的后台服务器。终端中可以设置有处理器、存储器和收发器等,处理器可以用于进行音频对齐的过程的处理,存储器可以用于进行音频对齐的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送数据。终端中还可以包括麦克风、屏幕等输出输出设备,麦克风可以用于播放音频或采集语音信号等,屏幕本文档来自技高网...

【技术保护点】
1.一种音频对齐的方法,其特征在于,所述方法包括:对第一音频进行分帧处理,并对第二音频进行分帧处理;根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。

【技术特征摘要】
1.一种音频对齐的方法,其特征在于,所述方法包括:对第一音频进行分帧处理,并对第二音频进行分帧处理;根据动态时间规整DTW算法,确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离;对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整,其中,对于第一音频帧和第二音频帧,根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,所述第一音频帧为所述第一音频中的任一音频帧,所述第二音频帧为所述第二音频中的任一音频帧,所述发音信息包括非周期性特征和/或能量特征;根据所有调整后的距离,选择所述第一音频和所述第二音频的最佳对齐路径。2.根据权利要求1所述的方法,其特征在于,所述发音信息包括能量特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值,对所述第一音频帧和所述第二音频帧的距离进行调整。3.根据权利要求1所述的方法,其特征在于,所述发音信息包括非周期性特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征,确定所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;基于所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。4.根据权利要求1所述的方法,其特征在于,所述发音信息包括非周期性特征和能量特征;所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息,对所述第一音频帧和所述第二音频帧的距离进行调整,包括:如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征,确定所述第一音频帧和所述第二音频帧均表现为非周期性,则获取预先存储的衰减系数;确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值;根据预先存储的差值范围与调整值的对应关系,确定所述差值所属的差值范围对应的调整值;基于所述调整值和所述衰减系数,对所述第一音频帧和所述第二音频帧的距离进行调整。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:如果所述第一音频帧中存在AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况,则确定所述第一音频帧表现为非周期性;如果所述第二音频帧中存在平均幅度差函数AMDF的凹点强度超过第一预设数值、过零...

【专利技术属性】
技术研发人员:肖纯智
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1