一种音频信号时序对齐方法和装置制造方法及图纸

技术编号:28055445 阅读:32 留言:0更新日期:2021-04-14 13:24
本申请公开了一种音频信号时序对齐方法和装置。其中方法包括:为待对齐音频信号和模板音频信号分别生成频域图像;将频域图像分别输入到时序偏移量预测模型的双生神经网络中,得到双生神经网络输出的两个频域特征;将两个频域特征进行融合,得到融合特征;将融合特征输入到时序偏移量预测模型的预测网络中,得到预测网络输出的时序偏移量;根据时序偏移量对待对齐音频信号进行时序对齐处理。该技术方案利用深度神经网络从待对齐音频信号和模板音频信号的频域图像中进行特征提取,相较于传统的人工特征方法,鲁棒性更好,特别是在多噪声环境下,深度神经网络提取的特征更具有本质性,稳定性更好;端到端的时序偏移量预测模型精度更高,速度更快。速度更快。速度更快。

【技术实现步骤摘要】
一种音频信号时序对齐方法和装置


[0001]本申请涉及音频信号处理
,尤其涉及一种音频信号时序对齐方法和装置。

技术介绍

[0002]在工业生产过程中,通过分析生产设备所产生的音频信号是否异常,可以及发现设备产生的故障,避免发生事故。如在铁路运输过程中,通过检测列车运行过程中车轮与轨道异常声音,可以及时发现轨道或车轮的损伤,从而及时更换损伤设备,避免车轮运行事故的发生。
[0003]此外,在声学设备的生产过程中,通过播放特定的不同频段的声音信号,可以分析判断声学设备是否有故障,以及分析出故障发生的频段和时间,以改进生产工艺提升整体产品的品质。
[0004]一般地,采集被检设备产生的一段音频信号序列,将其与标准信号序列进行比对,能够判断出异常信号产生的位置。但由于采集设备或者操作的原因,设备采集的信号与原始信号通常存在着时序不匹配的情况,因而有必要对采集的信号序列与标准信号序列进行对齐操作,以方便后续的进一步处理。

技术实现思路

[0005]本申请实施例提供了一种音频信号时序对齐方法和装置,以利用深度神经网络强大的特征表达能力,实现对噪声信号的过滤,最终实现端到端的音频信号的时序对齐。
[0006]本申请实施例采用下述技术方案:
[0007]第一方面,本申请实施例提供一种音频信号时序对齐方法,包括:为待对齐音频信号和模板音频信号分别生成频域图像;将频域图像分别输入到时序偏移量预测模型的双生神经网络中,得到双生神经网络输出的两个频域特征;将两个频域特征进行融合,得到融合特征;将融合特征输入到时序偏移量预测模型的预测网络中,得到预测网络输出的时序偏移量;根据时序偏移量对待对齐音频信号进行时序对齐处理。
[0008]在一些实施例中,为待对齐音频信号和模板音频信号分别生成频域图像包括:根据模板音频信号的时长,对待对齐音频信号进行剪切,使剪切后的待对齐音频信号的时长与模板音频信号的时长相一致;为剪切后的待对齐音频信号和模板音频信号分别生成频域图像。
[0009]在一些实施例中,为待对齐音频信号和模板音频信号分别生成频域图像包括:利用快速傅里叶变换法为待对齐音频信号和模板音频信号分别生成频域图像。
[0010]在一些实施例中,将两个频域特征进行融合,得到融合特征包括:将两个频域特征进行拼接,得到融合特征;根据时序偏移量对待对齐音频信号进行时序对齐处理包括:根据两个频域特征在拼接时的先后顺序,确定时序偏移量的使用方式。
[0011]在一些实施例中,将融合特征输入到时序偏移量预测模型的预测网络中,得到预
测网络输出的时序偏移量包括:由预测网络的全连接层对融合特征进行全连接处理,得到全连接特征;由预测网络的Flat层对全连接特征进行拉平处理,得到拉平后的一维特征;由预测网络的输出层根据一维特征输出预测的时序偏移量。
[0012]在一些实施例中,时序偏移量预测模型是通过如下方式训练得到的:将一组训练样本图像输入到时序偏移量预测模型的双生神经网络中,得到双生神经网络输出的两个频域特征;将两个频域特征进行融合,得到融合特征;将融合特征输入到时序偏移量预测模型的预测网络中,得到预测网络输出的时序偏移量作为样本预测值;根据样本预测值和该组训练样本图像的样本真实值计算训练损失值,根据训练损失值对双生神经网络的参数和预测网络的参数进行更新。
[0013]在一些实施例中,方法还包括:生成样本信号的第一频域图像;对第一频域图像进行处理,得到第二频域图像,以模拟样本信号的待对齐信号;将第一频域图像和第二频域图像作为一组训练样本图像,以对时序偏移量预测模型进行在线学习训练。
[0014]在一些实施例中,对第一频域图像进行处理包括:对第一频域图像进行偏移处理,将偏移处理使用的偏移量作为该组训练样本图像的样本真实值。
[0015]在一些实施例中,对第一频域图像进行处理包括:对第一频域图像增加噪声,以模拟实际场景中的噪声干扰。
[0016]第二方面,本申请实施例还提供一种音频信号时序对齐装置,用于实现如上任一所述的音频信号时序对齐方法。
[0017]第三方面,本申请实施例还提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行如上任一所述的音频信号时序对齐方法。
[0018]第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被包括多个应用程序的电子设备执行时,使得电子设备执行如上任一所述的音频信号时序对齐方法。
[0019]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:利用深度神经网络从待对齐音频信号和模板音频信号的频域图像中进行特征提取,相较于传统的人工特征方法,鲁棒性更好,特别是在多噪声环境下,深度神经网络提取的特征更具有本质性,稳定性更好;时序偏移量预测模型是端到端的模型,直接能够预测出时序偏移量,相较于MAD、SSDA等算法,噪声的敏感性更小,匹配的精度更高,速度更快。
附图说明
[0020]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1为本申请实施例中一种音频信号时序对齐方法的流程示意图;
[0022]图2示出了根据本申请一个实施例生成的频域图像;
[0023]图3示出了根据本申请一个实施例的时序偏移量预测模型的架构示意图;
[0024]图4为本申请实施例中一种音频信号时序对齐装置的结构示意图;
[0025]图5为本申请实施例中一种电子设备的结构示意图。
具体实施方式
[0026]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]专利技术人发现,利用移动延迟值、中间对齐法、特征点匹配法等虽然也能够实现音频信号时序对齐,但这些方法在噪声信号较多时效果不好,究其原因是噪声信号的随机性和多样性。
[0028]因此,专利技术人想到利用神经网络强大的特征表达能力,实现对噪声信号的过滤,最终实现端到端的音频信号的时序对齐。
[0029]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0030]图1为本申请实施例中一种音频信号时序对齐方法的流程示意图,如图1所示,该方法包括:
[0031]步骤S110,为待对齐音频信号和模板音频信号分别生成频域图像。
[0032]其中,待对齐音频信号可以是通过录音设备采集到的音频信号,例如可以是被测试的产品产生的音频信号。那么相应地,可以预先准备模板音频信号。
[0033]以被测试的产品为手机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频信号时序对齐方法,包括:为待对齐音频信号和模板音频信号分别生成频域图像;将所述频域图像分别输入到时序偏移量预测模型的双生神经网络中,得到所述双生神经网络输出的两个频域特征;将所述两个频域特征进行融合,得到融合特征;将所述融合特征输入到时序偏移量预测模型的预测网络中,得到所述预测网络输出的时序偏移量;根据所述时序偏移量对所述待对齐音频信号进行时序对齐处理。2.如权利要求1所述的方法,其特征在于,所述为待对齐音频信号和模板音频信号分别生成频域图像包括:根据所述模板音频信号的时长,对所述待对齐音频信号进行剪切,使剪切后的待对齐音频信号的时长与所述模板音频信号的时长相一致;为剪切后的待对齐音频信号和所述模板音频信号分别生成频域图像。3.如权利要求1所述的方法,其特征在于,所述为待对齐音频信号和模板音频信号分别生成频域图像包括:利用快速傅里叶变换法为所述待对齐音频信号和所述模板音频信号分别生成频域图像。4.如权利要求1所述的方法,其特征在于,所述将所述两个频域特征进行融合,得到融合特征包括:将所述两个频域特征进行拼接,得到融合特征;所述根据所述时序偏移量对所述待对齐音频信号进行时序对齐处理包括:根据所述两个频域特征在拼接时的先后顺序,确定所述时序偏移量的使用方式。5.如权利要求1所述的方法,其特征在于,所述将所述融合特征输入到时序偏移量预测模型的预测网络中,得到所述预测网络输出的时序偏移量包括:由所述预测网络的全连接层对所述融合特征进行全连接处理,得到全连接特征;由所述预测网络的F...

【专利技术属性】
技术研发人员:邹李兵张一凡王学强张富强
申请(专利权)人:歌尔股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1