一种多通道盲源分离方法、装置、机器可读介质及设备制造方法及图纸

技术编号:27659099 阅读:9 留言:0更新日期:2021-03-12 14:25
本发明专利技术公开了一种多通道盲源分离方法,包括:获取目标声源所处环境的多通道音频数据;基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;将所述单通道音频数据作为目标声源的音频数据。本发明专利技术解决了多个说话人在同一时间段说话的语音重叠问题,能准确的切分出不同说话人在同一时间段说话的语音和内容。

【技术实现步骤摘要】
一种多通道盲源分离方法、装置、机器可读介质及设备
本专利技术涉及人工智能领域,具体涉及一种多通道盲源分离方法、装置、机器可读介质及设备。
技术介绍
现在的多通道分离技术是通过对波束形成算法利用麦克风之间的相位差对拾音角度外的声音(噪声,人声等)进行抑制。但是,当噪声在拾音角度内且在拾音距离内时,其他说话人的声音或者噪声不会被算法抑制,并且在一定程度上对目标说话人的声音进行干扰,导致语音识别率下降。所以,现有技术在一些场景,如银行营业厅,餐厅,大马路上进行语音交互时,对干扰抑制的不够彻底。原有的盲源分离是基于单通道语音分离的,对于空间信息的利用有限。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种多通道盲源分离方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。为实现上述目的及其他相关目的,本专利技术提供一种多通道盲源分离方法,包括:获取目标声源所处环境的多通道音频数据;基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;将所述单通道音频数据作为目标声源的音频数据。可选地,得到预先训练好的分离模型的方法,包括:获取训练用的音频数据,所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据;以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练,得到所述分离模型。可选地,所述分离模型包括:编码模块,用于对所述多通道音频数据进行编码,得到第一音频特征;分离模块,用于通过时序空洞卷积网络对所述第一音频特征进行处理,得到掩敝输出;并根据所述第一音频特征与所述掩敝输出得到第二音频特征;解码模块,用于对所述第二音频特征进行解码,得到目标声源的音频数据。可选地,所述对所述多通道音频数据进行编码,得到第一音频特征,包括:将所述多通道音频数据与一维/二维卷积核进行卷积,得到一个二维特征;将所述二维特征进行编码,得到第一音频特征,所述第一音频特征为三维矩阵。可选地,所述时序空洞卷积网络包括多个依次叠加的时间卷积网络单元,所述时间卷积网络单元具有多个输出,前一个时间卷积网络单元的其中一个输出作为后一个时间卷积网络单元的输入,且每个时间卷积网络单元的其他输出作为Sigmoid函数的输入;所述时间卷积网络单元包括多个依次叠加的2维卷积核,每个2维卷积核包括两个输出,前一个2维卷积核的其中一个输出作为后一个2维卷积核的输入,每个2维卷积核的另一个输出作为Sigmoid函数的输入,经Sigmoid函数处理后,得到掩敝输出。可选地,所述第二音频特征为所述第一音频特征与所述掩敝输出的乘积。可选地,所述对所述第二音频特征进行解码,得到目标声源的音频数据,包括:将所述第二音频特征与一个一维/二维反卷积网络进行卷积,得到目标声源的音频数据。可选地,所述2维卷积核包括:依次连接的多个激活单元,前一个激活单元的输出作为后一个激活单元的输入,所述激活单元包括依次连接的2维卷积网络、激活层、正则化层;最后一个激活单元的正则化层的输出经两个二维卷积网络,其中一个二维卷积网络的输出作为二维卷积核的其中一个输出,另一个二维卷积网络的输出作为二维卷积核的另一个输出。为实现上述目的及其他相关目的,本专利技术提供一种多通道盲源分离装置,包括:音频获取模块,用于获取目标声源所处环境的多通道音频数据;音频分离模块,用于基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;将所述单通道音频数据作为目标声源的音频数据。可选地,所述分离模型包括:编码模块,用于对所述多通道音频数据进行编码,得到第一音频特征;分离模块,用于通过时序空洞卷积网络对所述第一音频特征进行处理,得到掩敝输出;并根据所述第一音频特征与所述掩敝输出得到第二音频特征;解码模块,用于对所述第二音频特征进行解码,得到目标声源的音频数据。可选地,所述对所述多通道音频数据进行编码,得到第一音频特征,包括:将所述多通道音频数据与一维/二维卷积核进行卷积,得到一个二维特征;将所述二维特征进行编码,得到第一音频特征,所述第一音频特征为三维矩阵。可选地,所述时序空洞卷积网络包括多个依次叠加的时间卷积网络单元,所述时间卷积网络单元具有多个输出,前一个时间卷积网络单元的其中一个输出作为后一个时间卷积网络单元的输入,且每个时间卷积网络单元的其他输出作为Sigmoid函数的输入;所述时间卷积网络单元包括多个依次叠加的2维卷积核,每个2维卷积核包括两个输出,前一个2维卷积核的其中一个输出作为后一个2维卷积核的输入,每个2维卷积核的另一个输出作为Sigmoid函数的输入,经Sigmoid函数处理后,得到掩敝输出。可选地,所述分离模块将所述第一音频特征与所述掩敝输出相乘,得到第二音频特征;所述解码模块通过将所述第二音频特征与一个一维/二维反卷积网络进行卷积,得到目标声源的音频数据。可选地,所述2维卷积核包括:依次连接的多个激活单元,前一个激活单元的输出作为后一个激活单元的输入,所述激活单元包括依次连接的2维卷积网络、激活层、正则化层;最后一个激活单元的正则化层的输出经两个二维卷积网络,其中一个二维卷积网络的输出作为二维卷积核的其中一个输出,另一个二维卷积网络的输出作为二维卷积核的另一个输出。为实现上述目的及其他相关目的,本专利技术还提供一种设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。为实现上述目的及其他相关目的,本专利技术还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。如上所述,本专利技术提供的一种多通道盲源分离方法、装置、机器可读介质及设备,具有以下有益效果:本专利技术的一种多通道盲源分离方法,包括获取目标声源所处环境的多通道音频数据;基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;将所述单通道音频数据作为目标声源的音频数据。本专利技术解决了多个说话人在同一时间段说话的语音重叠问题,能准确的切分出不同说话人在同一时间段说话的语音和内容。附图说明图1为本专利技术一实施例一种多通道盲源分离方法的流程图;图2为本专利技术一实施例训练得到分离模型的方法的流程图;图3为本专利技术一实施例分离模型的结构示意图;图4为本专利技术一实施例对所述多通道音频数据进行编码的流程图;图5为本专利技术一实施例时序空洞卷积网络的结构示意图;图6为本专利技术一实施例2维卷积核的结构示意图;图7为本专利技术一实施例一种多通道盲源分离装置的结构示意图;图8为本专利技术一实施例中终端设备的硬件结构示意图;图9为本专利技术一实施例中终端设备的硬件结构示意图。具体实施方式本文档来自技高网...

【技术保护点】
1.一种多通道盲源分离方法,其特征在于,包括:/n获取目标声源所处环境的多通道音频数据;/n基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;/n将所述单通道音频数据作为目标声源的音频数据。/n

【技术特征摘要】
1.一种多通道盲源分离方法,其特征在于,包括:
获取目标声源所处环境的多通道音频数据;
基于训练好的分离模型对所述多通道音频数据进行分离,得到单通道音频数据;
将所述单通道音频数据作为目标声源的音频数据。


2.根据权利要求1所述的多通道盲源分离方法,其特征在于,得到预先训练好的分离模型的方法,包括:
获取训练用的音频数据,所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据;
以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练,得到所述分离模型。


3.根据权利要求1所述的多通道盲源分离方法,其特征在于,所述分离模型包括:
编码模块,用于对所述多通道音频数据进行编码,得到第一音频特征;
分离模块,用于通过时序空洞卷积网络对所述第一音频特征进行处理,得到掩敝输出;并根据所述第一音频特征与所述掩敝输出得到第二音频特征;
解码模块,用于对所述第二音频特征进行解码,得到目标声源的音频数据。


4.根据权利要求3所述的多通道盲源分离方法,其特征在于,所述对所述多通道音频数据进行编码,得到第一音频特征,包括:
将所述多通道音频数据与一维/二维卷积核进行卷积,得到一个二维特征;
将所述二维特征进行编码,得到第一音频特征,所述第一音频特征为三维矩阵。


5.根据权利要求3所述的多通道盲源分离方法,其特征在于,所述时序空洞卷积网络包括多个依次叠加的时间卷积网络单元,所述时间卷积网络单元具有多个输出,前一个时间卷积网络单元的其中一个输出作为后一个时间卷积网络单元的输入,且每个时间卷积网络单元的其他输出作为Sigmoid函数的输入;
所述时间卷积网络单元包括多个依次叠加的2维卷积核,每个2维卷积核包括两个输出,前一个2维卷积核的其中一个输出作为后一个2维卷积核的输入,每个2维卷积核的另一个输出作为Sigmoid函数的输入,经Sigmoid函数处理后,得到掩敝输出。


6.根据权利要求3、4或5所述的多通道盲源分离方法,其特征在于,所述第二音频特征为所述第一音频特征与所述掩敝输出的乘积。


7.根据权利要求3所述的多通道盲源分离方法,其特征在于,所述对所述第二音频特征进行解码,得到目标声源的音频数据,包括:
将所述第二音频特征与一个一维/二维反卷积网络进行卷积,得到目标声源的音频数据。


8.根据权利要求5或6所述的多通道盲源分离方法,其特征在于,所述2维卷积核包括:
依次连接的多个激活单元,前一个激活单元的输出作为后一个激活单元的输入,所述激活单元包括依次连接的2维卷积网络、激活层、正则化层;最后一个激活单元的正则化层的输出经两个二维卷积网络,其中一个二维卷积网络的输出作为二维卷积核的其中一个输出,另一个二维卷积网络的输出作为二维卷积核的另一个输出。

【专利技术属性】
技术研发人员:高永裕
申请(专利权)人:北京云从科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1