【技术实现步骤摘要】
语音分离装置、方法及介质
本公开涉及语音处理的
,具体地涉及语音分离装置和语音分离的方法。
技术介绍
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。人类在有多个人声的复杂环境中,能够通过听觉选择注意力机制,从多个声源中选择感兴趣的内容去聆听和理解,并且能够非常轻易地在不同生源中转移注意力。这被称为“鸡尾酒会效应”。基于深度学习的语音分离技术,能够类似人类一样实现从多人交谈的单声道语音中分离每位参与交谈的说话人的清晰语音。然而,这项技术在实际使用时,不能等待这个交谈结束后再处理,而是需要对交谈的语音使用滑动窗的技术分块,以实现对语音信号实时分离。这里,分块的长度由几百毫秒到若干秒。但以分块的形式处理会带来前后两块的分离结果说话排列并不一致,称为“说话人排列问题”。以分离两位说话人混合的语音作为例子说明,第一块分离结果是说话人A的语音在信道1,说话人B的语音在信道2。而第二块分离结果是说话人A的语音在信道2,说话人B的语音在信道1。可见,这种排列严重影响这项技术的实际使用。产生这个问题的 ...
【技术保护点】
1.一种语音分离装置,包括:/n预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;/n多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;/n分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;/n掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及/n分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。/n
【技术特征摘要】
1.一种语音分离装置,包括:
预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;
多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;
分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;
掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及
分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。
2.根据权利要求1所述的语音分离装置,其中,所述预处理单元对所述混合语音信号执行一维卷积运算和常规整流线性运算以得到所述混合表达。
3.根据权利要求1所述的语音分离装置,其中,所述预处理单元对所述混合语音信号执行一维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。
4.根据权利要求1所述的语音分离装置,其中,所述多分支网络中的每个分支包含不同数目的卷积分离层。
5.根据权利要求4所述的语音分离装置,其中,所述多分支网络中的每个分支共用预定数目的卷...
【专利技术属性】
技术研发人员:林慧镔,石自强,刘柳,刘汝杰,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。