一种音频信号的处理方法、装置、设备及介质制造方法及图纸

技术编号：25089292 阅读：23 留言：0更新日期：2020-07-31 23:33

本发明专利技术关于一种音频信号的处理方法、装置、设备及介质，应用于电梯、智能汽车等语音控制场景，用以从包含多个对象音频信号中分离每个对象语音信号，提升分离对象语音信号效率，优化语音识别过程。方法包括：获取多路音频信号，多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值；根据每个对象的各帧语音信号在多个预设频率的幅值，确定每个对象的语音音频。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频信号的处理方法、装置、设备及介质
本专利技术涉及语音处理领域，尤其涉及一种音频信号的处理方法、装置、设备及介质。
技术介绍
在语音控制领域中，通常同一时间由一个用户发出语音控制命令，根据采集该用户的音频确定具体的命令意图。但在共享语音控制权限的场景中(例如，电梯场景)，多个用户均享有语音控制权限，若出现多个用户同一时间发出语音控制命令，被采集的音频中包含了多个用户的语音控制命令，因无法确定每个用户的语音控制命令音频，造成无法确定每个用户的具体命令意图，还需要确认多个用户逐个发出语音控制命令，使得处理效率低下。因此，亟需一种确定包含多个用户语音的音频中每个用户语音音频的解决方案。
技术实现思路
本专利技术提供一种音频信号的处理方法、装置、设备及介质，用以从包含多个对象音频信号中分离每个对象语音信号，提升分离对象语音信号效率，优化语音识别过程。本专利技术的技术方案如下：根据本专利技术实施例的第一方面，提供一种音频信号的处理方法，包括：获取多路音频信号，多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值；根据每个对象的各帧语音信号在多个预设频率的幅值，确定每个对象的语音音频。一种可...

【技术保护点】
1.一种音频信号的处理方法，其特征在于，所述方法包括：/n获取多路音频信号，所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；/n基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；/n根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在所述多个预设频率的幅值；/n根据所述每个对象的各帧语音信号在所述多个预设频率的幅值，确定每个对象的语音音频。/n

【技术特征摘要】
1.一种音频信号的处理方法，其特征在于，所述方法包括：
获取多路音频信号，所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；
基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在所述多个预设频率的幅值；
根据所述每个对象的各帧语音信号在所述多个预设频率的幅值，确定每个对象的语音音频。

2.根据权利要求1所述的方法，其特征在于，所述各帧音频信号的解混矩阵，采用如下步骤确定：
确定每路音频信号中首帧音频信号的中间解混矩阵，并基于所述每路音频信号中首帧音频信号的中间解混矩阵，确定所述首帧音频信号的解混矩阵；
确定每路音频信号中非首帧音频信号的中间解混矩阵，并基于所述每路音频信号中非首帧音频信号的中间解混矩阵，确定所述非首帧音频信号的解混矩阵。

3.根据权利要求2所述的方法，其特征在于，所述确定每路音频信号中首帧音频信号的中间解混矩阵，包括：
针对每路音频信号，将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。

4.根据权利要求3所述的方法，其特征在于，所述确定每路音频信号中非首帧音频信号的中间解混矩阵，包括：
针对每路音频信号中非首帧音频信号：
根据当前帧音频信号在所述多个预设频率的幅值以及前一帧音频信号的解混矩阵，确定当前帧音频信号的信号能量；
基于当前帧音频信号的信号能量、当前帧音频信号在所述多个预设频率的幅值、以及前一帧音频信号的协方差矩阵，确定当前帧音频信号的协方差矩阵；
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵，确定当前帧音频信号的中间解混矩阵；
其中，各路首帧音频信号的协方差矩阵是基于所述预设矩阵以及各路音频信号中首帧音频信号在所述多个预设频率的幅值确定的。

5.根据权利要求1所述的方法，其特征在于，所述根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在所述多个预设频率的幅值，包括：
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定各帧语音信号幅值矩阵；
依据所述各帧语音信号的幅值矩阵的维数以及所述多个预设频率的数量，确定对象数量；
基于所述各帧语音信号的幅值矩阵、所述对象数量，确定每个对象的各帧语音信号在所述多个预设频率的幅值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述每个对象的各帧语音信号在所述多个预设频率的幅值，确定每个对象的语音音频，包括：
基于预设转换关系，将所述每个对象的各帧语音信号在所述多个预设频率的幅值，转换为每个对象的各帧语音信号；
根据所述每个对象的各帧语音信号，确定每个对象的语音音频。

7.一种音频信号的处理装置，其特征在于，所述装置包括：
获取单元，用于获取多路音频信号，所述多路音频信号是利用设置在同一场景...

【专利技术属性】
技术研发人员：奚少亨，冯大航，陈孝良，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人