音频信号的处理方法及相关设备技术

技术编号:37104809 阅读:12 留言:0更新日期:2023-04-01 05:04
本申请实施例提供了一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及人工智能技术领域。其中,音频信号的处理方法包括:提取输入音频信号中的第一频域特征向量;基于第一频域特征向量确定输入音频信号的编码向量;基于编码向量确定输入音频信号中的设定声源的声源信号;该方法的实施有利于提升在输入音频信号中确定设定声源的声源信号的准确性。同时,由电子设备执行的上述音频信号的处理方法可以使用人工智能模型来执行。模型来执行。模型来执行。

【技术实现步骤摘要】
音频信号的处理方法及相关设备


[0001]本申请涉及人工智能
,具体而言,本申请涉及一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]在进行音频采集的过程中,由于环境条件的限制,一般采集到的音频信号除了声源对象的音频信号以外,还包括一些环境音的音频信号。为此,需要对所采集的音频信号中各个声源的音频信号进行处理,才可以获取得到仅包括所需声源对象的音频信号,以提高所采集音频信号的质量。

技术实现思路

[0003]本申请实施例提供了一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决相关技术中所采集音频信号包括环境音的技术问题。所述技术方案如下:
[0004]根据本申请实施例的一个方面,提供了一种音频信号的处理方法,该方法包括:
[0005]提取输入音频信号中的第一频域特征向量;
[0006]基于所述第一频域特征向量确定所述输入音频信号的编码向量;
[0007]基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。
[0008]根据本申请实施例的另一个方面,提供了一种音频信号的处理装置,该装置包括:
[0009]提取模块,用于提取输入音频信号中的第一频域特征向量;
[0010]编码模块,用于基于所述第一频域特征向量确定所述输入音频信号的编码向量;
[0011]确定模块,用于基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。
[0012]根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:
[0013]一个或多个处理器;
[0014]存储器;
[0015]一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行上述音频信号的处理方法。
[0016]根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,所述计算机存储介质用于存储计算机指令,当所述计算机指令在计算机上运行时,使得计算机可以执行上述音频信号的处理方法。
[0017]根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述音频信号的处理方法的步骤。
[0018]本申请实施例提供的技术方案带来的有益效果是:
[0019]本申请提供一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计
算机程序产品,具体地,本申请通过提取输入音频信号中的第一频域特征向量,基于第一频域特征向量确定输入音频信号的编码向量后,基于编码向量确定输入音频信号中的设定声源的声源信号。本申请方案的实施可以基于频域特征在输入音频信号中获取设定声源的声源信号,且有利于提高所获取声源信号的准确度。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0021]图1为本申请实施例提供的一种音频信号的处理方法的流程示意图;
[0022]图2为本申请实施例中提供的一种音频信号的处理方法应用基于多尺度的频域时域分离网络的流程示意图;
[0023]图3a为本申请实施例中提供的一种基于多尺度的频域时域分离网络的结构示意图;
[0024]图3b为本申请实施例中提供的一种网络结构示意图;
[0025]图4为本申请实施例中提供的一种基于多尺度的频域时域分离网络中编码器模块的结构框图;
[0026]图5为本申请实施例中提供的一种基于多尺度的频域时域分离网络中编码器模块的网络流程图;
[0027]图6为本申请实施例中提供的一种基于多尺度的频域时域分离网络中分离器模块的网络流程图;
[0028]图7为本申请实施例中提供的一种基于多尺度的频域时域分离网络中分离器的网络结构框图;
[0029]图8a为本申请实施例中提供的一种第一特征分析方式的结构示意图;
[0030]图8b为本申请实施例中提供的一种频率路径扫描的示意图;
[0031]图9a为本申请实施例中提供的一种第二特征分析方式的结构示意图;
[0032]图9b为本申请实施例中提供的一种时间路径扫描的示意图;
[0033]图10为本申请实施例中提供的一种特征向量数据结构示意图;
[0034]图11a为本申请实施例中提供的一种第三特征分析方式的结构示意图;
[0035]图11b为本申请实施例中提供的一种时频路径扫描的示意图;
[0036]图11c为本申请实施例中提供的一种时频路径扫描块的处理流程图;
[0037]图11d为本申请实施例中提供的另一种时频路径扫描块的处理流程图;
[0038]图12为本申请实施例中提供的一种基于多尺度的频域时域分离网络中解码器的网络流程图;
[0039]图13为本申请实施例中提供的一种心理声学Loss的网络结构模块框图;
[0040]图14为本申请实施例中提供的一种心理声学Loss的计算流程图;
[0041]图15为本申请实施例中提供的一种应用环境示意图;
[0042]图16为本申请实施例提供的一种音频信号的处理装置的结构示意图;
[0043]图17为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0044]下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
[0045]本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本
所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。
[0046]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0047]下面对本申请涉及的相关技术进行说明:
[0048]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频信号的处理方法,其特征在于,包括:提取输入音频信号中的第一频域特征向量;基于所述第一频域特征向量确定所述输入音频信号的编码向量;基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。2.根据权利要求1所述的方法,其特征在于,提取输入音频信号中的第一频域特征向量,包括:提取输入音频信号中的至少两种尺度的第一频域特征向量。3.根据权利要求2所述的方法,其特征在于,还包括:提取输入音频信号中的第一时域特征向量;基于所述第一频域特征向量确定所述输入音频信号的编码向量,包括:融合所述第一频域特征向量和所述第一时域特征向量得到所述输入音频信号的编码向量。4.根据权利要求3所述的方法,其特征在于,所述融合所述第一频域特征向量与第一时域特征向量得到所述输入音频信号的编码向量,包括:在所述第一频域特征向量和所述第一时域特征向量中,获取预定基准特征向量;对于除预定基准特征向量之外的其他至少一个特征向量,将所述至少一个特征向量和所述预定基准特征向量在帧级别进行对齐,得到对齐后的第二频域特征向量和第二时域特征向量;融合所述第二频域特征向量与第二时域特征向量,得到所述输入音频信号的编码向量。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述基于所述编码向量确定所述输入音频信号中的设定声源的声源信号,包括以下至少一项:基于所述编码向量分离所述输入音频信号中各声源分别对应的声源信号;基于所述编码向量分离所述输入音频信号,得到目标声源对应的目标声源信号与其他声源对应的其他声源信号。6.根据权利要求1

4中任一项所述的方法,其特征在于,所述基于所述编码向量确定所述输入音频信号中的设定声源的声源信号,包括:对所述编码向量进行特征分析,确定所述输入音频信号中的设定声源的掩码向量;基于所述掩码向量与所述第一频域特征向量,确定所述输入音频信号中的设定声源的声源信号。7.根...

【专利技术属性】
技术研发人员:杨磊王维钦刘炜
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1