音频处理方法及音频处理装置以及非暂态计算机可读取媒体制造方法及图纸

技术编号:34362834 阅读:12 留言:0更新日期:2022-07-31 07:51
本发明专利技术涉及音频处理方法及装置。所述音频处理方法可包括:利用第一卷积层电路及第二卷积层电路分别对一音频混合信号进行卷积处理,以产生一输入特征图;对所述输入特征图进行对应于一预定神经网络模型的分离处理,以取得分别对应于第一类型及第二类型的第一输出特征图及第二输出特征图;以及利用第一去卷积层电路及第二去卷积层电路分别对所述第一输出特征图的不同部分进行去卷积处理,且利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第二输出特征图的不同部分进行去卷积处理,以产生对应的处理结果,以供产生多个音频输出信号。频输出信号。频输出信号。

Audio processing method, audio processing device and non transient computer readable media

【技术实现步骤摘要】
音频处理方法及音频处理装置以及非暂态计算机可读取媒体


[0001]本专利技术涉及信号处理(signal processing),特别是涉及一种音频处理(audio processing)方法及音频处理装置,诸如基于多长度卷积/去卷积层的(multi

length

convolution/deconvolution

layer

based)音频处理方法及装置,以及非暂态计算机可读取媒体(non

transitory computer

readable medium)。

技术介绍

[0002]音频分离(audio separation)旨在分离音频混合信号(audio mixture signal)并提取我们感兴趣的部分。它可以应用于许多不同的领域,例如耳机、扬声器和电视产业,以改善用户体验。举例来说,歌声(singing voice)分离可将音频混合信号分离为人声和背景音乐。干净的人声可以用于歌手识别(singer identification)、自动歌词转录(automatic lyrics transcriptions)、音调追踪(pitch tracking)、人声增强效果(vocal enhancement effect)等。分离的背景音乐也可能是用于娱乐的资产(asset)。因此,需要一种新颖的方法及相关架构,以在没有副作用或较不可能带来副作用的状况下实现可靠的音频分离处理。
专利技术内容
[0003]本专利技术的一目的在于提供一种音频处理方法及音频处理装置,诸如基于多长度卷积/去卷积层的音频处理方法及装置,以及非暂态计算机可读取媒体,以解决上述问题。
[0004]本专利技术的另一目的在于提供一种音频处理方法及音频处理装置,诸如基于多长度卷积/去卷积层的音频处理方法及装置,以及非暂态计算机可读取媒体,以提升针对音频处理的神经网络(neural network)架构的整体效能。
[0005]本专利技术的至少一实施例提供一种音频处理方法,其中所述方法是可应用于(applicable to)具备音频处理功能的一电子装置(例如电视、影音系统等)。所述方法可包括:利用一第一卷积(convolution)层电路及一第二卷积层电路分别对一音频混合信号进行卷积处理,以产生一输入特征图(feature map),其中所述第一卷积层电路及所述第二卷积层电路中的每一卷积层电路包括多层一维(one

dimensional,1D)卷积内核(convolution kernel),以及所述第一卷积层电路及所述第二卷积层电路的卷积内核层长度分别等于一第一长度及一第二长度;对所述输入特征图进行对应于一预定神经网络模型的分离处理,以取得分别对应于一第一类型及一第二类型的一第一输出特征图及一第二输出特征图;以及利用一第一去卷积(deconvolution)层电路及一第二去卷积层电路分别对所述第一输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第一音频输出信号,且利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第二输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第二音频输出信号,其中所述第一去卷积层电路及所述第二去卷积层电路中的每一去卷积层电路包括多层一维卷积内核,以及所述第一去卷积层电路及所述第二去卷积层电路的卷积内核层长度分别
等于所述第一长度及所述第二长度。
[0006]本专利技术的至少一实施例提供一种音频处理装置。所述音频处理装置可包括:一音频信号分析器,其中所述音频信号分析器包括一第一卷积层电路及一第二卷积层电路;一分离器,耦接至所述音频信号分析器;以及一音频信号合成器,耦接至所述分离器,其中所述音频信号合成器包括一第一去卷积层电路及一第二去卷积层电路。例如:所述第一卷积层电路及所述第二卷积层电路可用来分别对一音频混合信号进行卷积处理,以产生一输入特征图,其中所述第一卷积层电路及所述第二卷积层电路中的每一卷积层电路包括多层一维卷积内核,以及所述第一卷积层电路及所述第二卷积层电路的卷积内核层长度分别等于一第一长度及一第二长度;所述分离器可用来对所述输入特征图进行对应于一预定神经网络模型的分离处理,以取得分别对应于一第一类型及一第二类型的一第一输出特征图及一第二输出特征图;以及所述第一去卷积层电路及所述第二去卷积层电路可用来分别对所述第一输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第一音频输出信号,且利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第二输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第二音频输出信号,其中所述第一去卷积层电路及所述第二去卷积层电路中的每一去卷积层电路包括多层一维卷积内核,以及所述第一去卷积层电路及所述第二去卷积层电路的卷积内核层长度分别等于所述第一长度及所述第二长度。
[0007]本专利技术的至少一实施例提供一种非暂态计算机可读取媒体,其存储有计算机可读取指令码使得一音频处理装置于执行所述计算机可读取指令码时进行一音频处理程序,所述音频处理程序包括:利用一第一卷积层电路及一第二卷积层电路分别对一音频混合信号进行卷积处理,以产生一输入特征图,其中所述第一卷积层电路及所述第二卷积层电路中的每一卷积层电路包括多层一维卷积内核,以及所述第一卷积层电路及所述第二卷积层电路的卷积内核层长度分别等于一第一长度及一第二长度;对所述输入特征图进行对应于一预定神经网络模型的分离处理,以取得分别对应于一第一类型及一第二类型的一第一输出特征图及一第二输出特征图;以及利用一第一去卷积层电路及一第二去卷积层电路分别对所述第一输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第一音频输出信号,且利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第二输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第二音频输出信号,其中所述第一去卷积层电路及所述第二去卷积层电路中的每一去卷积层电路包括多层一维卷积内核,以及所述第一去卷积层电路及所述第二去卷积层电路的卷积内核层长度分别等于所述第一长度及所述第二长度。
[0008]本专利技术的音频处理方法及音频处理装置可借助于不同长度的卷积层以及不同长度的去卷积层来进行音频处理,以提升针对音频处理的神经网络架构的整体效能。相较于相关技术,本专利技术的音频处理方法及音频处理装置可大幅地改善音频分离处理的声音输出的质量。
附图说明
[0009]图1为依据本专利技术一实施例的一种音频处理装置的示意图。
[0010]图2是依据本专利技术一实施例绘示的一种音频处理方法的一基于多长度卷积/去卷
积层的控制方案的示意图。
[0011]图3绘示所述音频处理方法所涉及的1D卷积/去卷积层的例子。
[0012]图4绘示所述音频处理方法所涉及的特征图的例子。
[0013]图5绘示所述音频处理方法所涉及的遮罩(mask)的例子。...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,可应用于具备音频处理功能的一电子装置,所述方法包括:利用一第一卷积层电路及一第二卷积层电路分别对一音频混合信号进行卷积处理,以产生一输入特征图,其中所述第一卷积层电路及所述第二卷积层电路中的每一卷积层电路包括多层一维卷积内核,以及所述第一卷积层电路及所述第二卷积层电路的卷积内核层长度分别等于一第一长度及一第二长度;对所述输入特征图进行对应于一预定神经网络模型的一分离处理,以取得分别对应于一第一类型及一第二类型的一第一输出特征图及一第二输出特征图;以及利用一第一去卷积层电路及一第二去卷积层电路分别对所述第一输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第一音频输出信号,且利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第二输出特征图的不同部分进行去卷积处理以产生对应的处理结果,以产生一第二音频输出信号,其中所述第一去卷积层电路及所述第二去卷积层电路中的每一去卷积层电路包括多层一维卷积内核,以及所述第一去卷积层电路及所述第二去卷积层电路的卷积内核层长度分别等于所述第一长度及所述第二长度。2.根据权利要求1所述的音频处理方法,其特征在于,利用所述第一卷积层电路及所述第二卷积层电路分别对所述音频混合信号进行卷积处理以产生所述输入特征图还包括:利用所述第一卷积层电路对所述音频混合信号的多个样本进行对应于所述第一长度的卷积处理,以产生所述输入特征图的一第一局部特征图;以及利用所述第二卷积层电路对所述音频混合信号的所述多个样本进行对应于所述第二长度的卷积处理,以产生所述输入特征图的一第二局部特征图。3.根据权利要求1所述的音频处理方法,其特征在于,对所述输入特征图进行对应于所述预定神经网络模型的所述分离处理以取得分别对应于所述第一类型及所述第二类型的所述第一输出特征图及所述第二输出特征图还包括:利用对应于所述预定神经网络模型的一时间卷积网络模块对所述输入特征图进行所述分离处理以产生分别对应于所述第一类型及所述第二类型的一第一遮罩及一第二遮罩;以及对所述输入特征图及所述第一遮罩进行乘法计算以产生所述第一输出特征图,且对所述输入特征图及所述第二遮罩进行乘法计算以产生所述第二输出特征图。4.根据权利要求1所述的音频处理方法,其特征在于,利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第一输出特征图的不同部分进行去卷积处理以产生对应的处理结果以产生所述第一音频输出信号还包括:利用所述第一去卷积层电路对所述第一输出特征图的一第一局部特征图进行对应于所述第一长度的去卷积处理,以产生对应于所述第一输出特征图的所述第一局部特征图的一组第一中间样本;以及利用所述第二去卷积层电路对所述第一输出特征图的一第二局部特征图进行对应于所述第二长度的去卷积处理,以产生对应于所述第一输出特征图的所述第二局部特征图的一组第二中间样本。5.根据权利要求4所述的音频处理方法,其特征在于,利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第一输出特征图的不同部分进行去卷积处理以产生对应
的处理结果以产生所述第一音频输出信号还包括:分别对对应于所述第一输出特征图的所述第一局部特征图的所述组第一中间样本以及对应于所述第一输出特征图的所述第二局部特征图的所述组第二中间样本进行加法计算,以产生一组加法计算结果作为所述第一音频输出信号的多个样本。6.根据权利要求1所述的音频处理方法,其特征在于,利用所述第一去卷积层电路及所述第二去卷积层电路分别对所述第二输出特征图的不同部分进行去卷积处理以产生对应的处理结果以产生所述第二音频输出信号还包括:利用所述第一去卷积层电路对所述第二输出特征图的一第一局部特征图进行对应于所述第一长度的去卷积处理,以产生对应于所述第二输出特征图的所述第一局部特征图的一组第一...

【专利技术属性】
技术研发人员:冀泰石赖亚青沈奕良朱彦勋郑家钧
申请(专利权)人:瑞昱半导体股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1