一种多通道盲源分离方法、装置、机器可读介质及设备制造方法及图纸

技术编号：27659099 阅读：9 留言：0更新日期：2021-03-12 14:25

本发明专利技术公开了一种多通道盲源分离方法，包括：获取目标声源所处环境的多通道音频数据；基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；将所述单通道音频数据作为目标声源的音频数据。本发明专利技术解决了多个说话人在同一时间段说话的语音重叠问题，能准确的切分出不同说话人在同一时间段说话的语音和内容。

全部详细技术资料下载

【技术实现步骤摘要】
一种多通道盲源分离方法、装置、机器可读介质及设备
本专利技术涉及人工智能领域，具体涉及一种多通道盲源分离方法、装置、机器可读介质及设备。
技术介绍
现在的多通道分离技术是通过对波束形成算法利用麦克风之间的相位差对拾音角度外的声音(噪声，人声等)进行抑制。但是，当噪声在拾音角度内且在拾音距离内时，其他说话人的声音或者噪声不会被算法抑制，并且在一定程度上对目标说话人的声音进行干扰，导致语音识别率下降。所以，现有技术在一些场景，如银行营业厅，餐厅，大马路上进行语音交互时，对干扰抑制的不够彻底。原有的盲源分离是基于单通道语音分离的，对于空间信息的利用有限。
技术实现思路
鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种多通道盲源分离方法、装置、机器可读介质及设备，用于解决现有技术存在的问题。为实现上述目的及其他相关目的，本专利技术提供一种多通道盲源分离方法，包括：获取目标声源所处环境的多通道音频数据；基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；将所述单通道音频数据作为目标声源的音频数据。可选地，得到预先训练好的分离模型的方法，包括：获取训练用的音频数据，所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据；以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练，得到所述分离模型。可选地，所述分离模型包括：编码模块，用于对所述多通道音频数据进行编码，得到第一音频特征；分离模块...

【技术保护点】
1.一种多通道盲源分离方法，其特征在于，包括：/n获取目标声源所处环境的多通道音频数据；/n基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；/n将所述单通道音频数据作为目标声源的音频数据。/n

【技术特征摘要】
1.一种多通道盲源分离方法，其特征在于，包括：
获取目标声源所处环境的多通道音频数据；
基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；
将所述单通道音频数据作为目标声源的音频数据。

2.根据权利要求1所述的多通道盲源分离方法，其特征在于，得到预先训练好的分离模型的方法，包括：
获取训练用的音频数据，所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据；
以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练，得到所述分离模型。

3.根据权利要求1所述的多通道盲源分离方法，其特征在于，所述分离模型包括：
编码模块，用于对所述多通道音频数据进行编码，得到第一音频特征；
分离模块，用于通过时序空洞卷积网络对所述第一音频特征进行处理，得到掩敝输出；并根据所述第一音频特征与所述掩敝输出得到第二音频特征；
解码模块，用于对所述第二音频特征进行解码，得到目标声源的音频数据。

4.根据权利要求3所述的多通道盲源分离方法，其特征在于，所述对所述多通道音频数据进行编码，得到第一音频特征，包括：
将所述多通道音频数据与一维/二维卷积核进行卷积，得到一个二维特征；
将所述二维特征进行编码，得到第一音频特征，所述第一音频特征为三维矩阵。

5.根据权利要求3所述的多通道盲源分离方法，其特征在于，所述时序空洞卷积网络包括多个依次叠加的时间卷积网络单元，所述时间卷积网络单元具有多个输出，前一个时间卷积网络单元的其中一个输出作为后一个时间卷积网络单元的输入，且每个时间卷积网络单元的其他输出作为Sigmoid函数的输入；
所述时间卷积网络单元包括多个依次叠加的2维卷积核，每个2维卷积核包括两个输出，前一个2维卷积核的其中一个输出作为后一个2维卷积核的输入，每个2维卷积核的另一个输出作为Sigmoid函数的输入，经Sigmoid函数处理后，得到掩敝输出。

6.根据权利要求3、4或5所述的多通道盲源分离方法，其特征在于，所述第二音频特征为所述第一音频特征与所述掩敝输出的乘积。

7.根据权利要求3所述的多通道盲源分离方法，其特征在于，所述对所述第二音频特征进行解码，得到目标声源的音频数据，包括：
将所述第二音频特征与一个一维/二维反卷积网络进行卷积，得到目标声源的音频数据。

8.根据权利要求5或6所述的多通道盲源分离方法，其特征在于，所述2维卷积核包括：
依次连接的多个激活单元，前一个激活单元的输出作为后一个激活单元的输入，所述激活单元包括依次连接的2维卷积网络、激活层、正则化层；最后一个激活单元的正则化层的输出经两个二维卷积网络，其中一个二维卷积网络的输出作为二维卷积核的其中一个输出，另一个二维卷积网络的输出作为二维卷积核的另一个输出。

【专利技术属性】
技术研发人员：高永裕，
申请(专利权)人：北京云从科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人