语音处理装置、方法和介质制造方法及图纸

技术编号:25311624 阅读:30 留言:0更新日期:2020-08-18 22:29
公开了一种语音处理装置,包括:生成器,其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及判别器,其被配置成区分所述分离的单一语音是否是所述原始单一语音,其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。根据本公开的装置不仅旨在最大化信号与失真比来获得更好的语音质量,其还将语音分离和提高语音质量集成到单个模型中。此外,根据本公开的装置通过这个过程执行生成性对抗训练,这使得分离的语音与真实的语音难以区分。

【技术实现步骤摘要】
语音处理装置、方法和介质
本公开涉及语音处理的
,具体地涉及采用结合机器学习技术的语音处理装置和方法。
技术介绍
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。多语音单声道语音分离具有广泛的应用。例如,在许多人讲话的家庭环境或会议环境中,人类听觉系统可以容易地从多个讲话者的混合语音中跟踪和跟随目标讲话者的语音。在这种情况下,如果要执行自动语音识别和讲话者识别,则需要将目标讲话者的干净语音信号从混合语音中分离,以完成随后的识别工作。因此,为了在语音或讲话者识别任务中实现令人满意的性能,必须解决该问题。
技术实现思路
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。本公开的目的在于提供一种有效的端到端装置来进行自动语音分离。根据本公开的装置不仅旨在最大化信号与失真比(Signal-to-DistortionRatio,SDR)来获得更好的语音质量,其还将语音分离和提高语音质量集成到单个模型中。根据本公开的技术方案通过这个过程执行生成性对抗训练,这使得分离的语音与真实的语音本文档来自技高网...

【技术保护点】
1.一种语音处理装置,包括:/n生成器,其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及/n判别器,其被配置成区分所述分离的单一语音是否是所述原始单一语音,/n其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。/n

【技术特征摘要】
1.一种语音处理装置,包括:
生成器,其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及
判别器,其被配置成区分所述分离的单一语音是否是所述原始单一语音,
其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。


2.根据权利要求1所述的装置,其中,对所述生成器进行训练包括使分离的单一语音的信号与失真比的损失函数最小化。


3.根据权利要求2所述的装置,其中,对所述生成器进行训练还包括对所述原始单一语音进行变换以使其具有与所述分离的单一语音相同的数量积。


4.根据权利要求3所述的装置,其中,对所述生成器进行训练还包括计算所述分离的单一语音与变换的原始单一语音之间的误差。


5.根据权利要求1所述的装置,其中,对所述判别器进行训练包括使所述判别器最大化地区分所述分离的单一语音与所述原始单一语音。


6.根据权利要求5所述的装置,其中,对所述判...

【专利技术属性】
技术研发人员:石自强林慧镔刘柳刘汝杰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1