语音分离方法、语音分离模型训练方法和计算机可读介质技术

技术编号:24097405 阅读:113 留言:0更新日期:2020-05-09 11:05
本发明专利技术涉及一种语音分离方法,包括:使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;对经第一卷积运算的数据执行降采样;使用激活函数处理经降采样后的数据;对经激活函数处理后的数据进行第二卷积运算;通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系;根据对应关系提取与讲话人对应的数据;使用全连接层处理所提取的数据;对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。

Speech separation method, speech separation model training method and computer readable medium

【技术实现步骤摘要】
语音分离方法、语音分离模型训练方法和计算机可读介质
本公开涉及语音分离方法、语音分离模型训练方法和计算机可读介质。
技术介绍
语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中,语音分离属于基本的任务类型,应用范围广泛,包括助听器设计、移动通信、音频信息检索、自动语音以及说话人识别等等。人类的听觉系统能轻易地将一个人的声音与另一个人的声音的分离开。即使在非常嘈杂的声音环境中,一个人也能毫不费力地在其他人的说话声和环境噪声的包围中分辨另一个特定人的说话内容。因此语音分离问题通常也被叫做鸡尾酒会问题(cocktailpartyproblem)。基于机器的语音分离,是指使用计算机和其他设备将目标语音与背景噪声引起的干扰分开的问题。通过用单个麦克风或其他源进行的输入实现的单声道语音分离是许多现实世界应用的核心。然而,尽管经过数十年的努力,单声道语音分离仍然是信号和语音处理中最重要的挑战之一。传统的语音分离算法分为两类:语音增强和波束形成。语音增强主要是基于信号处理的方法,其基于语音和噪声的广泛统计来估计目标语音,而波束成形利用传感器或本文档来自技高网...

【技术保护点】
1.一种语音分离方法,包括:/n使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;/n对经所述第一卷积运算的数据执行降采样;/n使用激活函数处理经所述降采样后的数据;/n对经所述激活函数处理后的数据进行第二卷积运算;/n通过应用至少一个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系;/n根据所述对应关系提取与所述讲话人对应的数据;/n使用全连接层处理所提取的数据;/n对经所述全连接层处理的数据分别进行所述第二卷积运算的逆运算和所述第一卷积运算的逆运算以生成对应于所述讲话人的语音数据。/n

【技术特征摘要】
1.一种语音分离方法,包括:
使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;
对经所述第一卷积运算的数据执行降采样;
使用激活函数处理经所述降采样后的数据;
对经所述激活函数处理后的数据进行第二卷积运算;
通过应用至少一个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系;
根据所述对应关系提取与所述讲话人对应的数据;
使用全连接层处理所提取的数据;
对经所述全连接层处理的数据分别进行所述第二卷积运算的逆运算和所述第一卷积运算的逆运算以生成对应于所述讲话人的语音数据。


2.根据权利要求1所述的方法,其中,所述降采样处理为池化Pooling。


3.根据权利要求1所述的方法,其中,所述激活函数为线性整流函数Relu。


4.根据权利要求1所述的方法,其中,依次应用两个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系。


5.根据权利要求1至4中任一项所述的方法,其中所述深度神经网络模型为长短期记忆网络LSTM。


6.根据...

【专利技术属性】
技术研发人员:石自强林慧镔刘柳刘汝杰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1