用于实时声音增强的方法和装置制造方法及图纸

技术编号:39583524 阅读:13 留言:0更新日期:2023-12-03 19:32
广泛地说,本技术一般涉及用于训练机器学习

【技术实现步骤摘要】
【国外来华专利技术】用于实时声音增强的方法和装置


[0001]本申请总体上涉及用于实时声音增强的方法,尤其涉及用于训练机器学习
ML
模型以实时为目标用户执行声音增强的计算机实现的方法和装置


技术介绍

[0002]真实世界的语音信号记录经常被环境噪声和干扰发言者
(speaker)
所损坏

音频源分离或语音增强技术可以潜在地用作音频预处理步骤,以抑制这样的噪声,以用于在许多应用中改进用户体验,包括移动语音通信

电话会议

助听器和其他下游音频识别
(recognition)
任务,诸如鲁棒的自动语音识别
(ASR)。
当前在移动和
IoT
设备上使用语音知觉应用的广泛趋势也已驱动了对开发可以在设备上高效运行的实时语音增强方案的研究兴趣


技术实现思路

[0003]技术问题
[0004]语音增强的最新进展已经改进了现有的非实时操作的语音增强方案的质量

典型地,这些方案用于清理收集的数据,以用于其他音频任务的训练

例如,语音增强技术集中于增强电话的感知质量或音频相关的下游任务的性能,诸如用于自动语音识别
ASR
的较低的词语错误率
WER。
[0005]存在大量旨在离线
(
即非实时
)
语音增强的工作

然而,目前,对于各种资源受限的设备
(
诸如智能电话和物联网
IoT
设备
)
,实时语音增强方案的设备上部署
(on

device deployment)
尚未实现

[0006]关于减小模型大小和
/
或延迟以进行有效部署的大多数工作是基于双向架构
(
即,非因果的
)
,或者基于以双路径方式应用的单向架构组件间和单向架构组件内的对,这实际上要求访问整个过去

当前和未来以增强当前帧
(
例如,组通信工作线
)
,因此不适于实时部署

[0007]本申请人已经认识到需要克服这些问题的改进的声音增强机构

[0008]技术方案
[0009]在本技术的第一方法中,提供了一种计算机实现的方法,用于使用训练的机器学习
ML
模型来为目标用户执行实时声音增强,该方法包括:获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发言者嵌入向量;以及使用训练的
ML
模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的
ML
模型以执行个性化或非个性化噪声移除,以从有噪声的音频信号移除噪声,同时保持目标用户的语音

[0010]一般来说,在包含目标用户
(
即,特定的个体人类
)
的语音的音频信号中可能出现两个广泛类型的干扰噪声,并且每个类型的干扰噪声可能使得难以辨别或听到目标用户的语音

干扰噪声可能使与目标用户进行音频或视频呼叫的参与者难以理解目标用户正在说什么

类似地,当音频信号包含干扰噪声时,对包含语音的音频信号动作的诸如自动语音识
别的应用可能不能很好地执行

两个广泛类型的干扰噪声是环境
(environmental)
或外界
(ambient)
噪声和多路重合
(babble)
噪声

环境噪声是环境中的背景噪声,并且该类型的噪声可以跨不同的环境变化,例如,火车或火车站中的背景噪声可以包括火车和安全公告,而咖啡馆中的背景噪声可以包含咖啡机或杯子碰撞的声音,办公室中的背景噪声可以包含打印机和电话铃的声音

多路重合噪声是在目标用户附近
(vicinity)
的其他人们讲话的声音,或者在多人视频或电话会议期间有人与目标用户同时发言时的声音

[0011]有利的是,本技术提供了单个训练的机器学习
ML
模型,该模型能够实时地对包含语音的音频信号执行声音增强

同一模型能够执行两个类型的声音增强:个性化噪声移除和非个性化噪声移除

非个性化噪声移除仅能够从音频信号中移除环境噪声

在这种情况下,模型不知道目标用户听起来像什么,并且不能区分目标用户和正在说话的任何其他人或人们,这意味着模型不能从音频信号中移除多路重合噪声

个性化噪声移除能够从音频信号中移除多路重合噪声和环境噪声两者

这是因为该模型确实知道目标用户听起来像什么,因此可以从音频信号中移除多路重合噪声

因此,本技术是有益的,因为它们能够对包含语音的任何音频信号执行声音增强,即使当模型不知道关于主
/
目标发言者的任何事情时

这也可以使得音频信号在例如被传送给音频呼叫中的参与者之前以及在被从音频呼叫中的参与者接收时,能够被增强

[0012]如上所述,
ML
模型根据是否存在目标用户的发言者嵌入向量来执行个性化或非个性化语音增强

然而,在这两种情况下,
ML
模型的输入包括有噪声的音频信号和表示目标用户的语音简档的向量

在目标用户的发言者嵌入向量已知的情况下,发言者嵌入向量是输入到
ML
模型的向量,并且该向量实际上表示目标用户的语音简档

在目标用户未知并且目标用户的发言者嵌入向量未知的情况下,输入到
ML
模型的向量是零向量,零向量表示目标用户的语音简档未知的事实

[0013]在许多现有的语音增强技术中,向量与有噪声的音频信号的每个帧
(
也称为频谱图
)
级联,并且这被输入到
ML
模型中进行处理

然而,这增加了要由
ML
模型处理的信息的大小,这可能要求更多的计算资源
(
处理能力和
/
或存储器
)
并且可能增加等待时间

相比之下,在本技术中,仅在有噪声的音频信号已经被
ML
模型的编码器和解码器模块处理之后,向量才与有噪声的音频信号级联

因此,本技术不会遭遇与现有技术相同的问题,并且本技术因此可以有利地用在资源受限的设备上,例如中等和高端智能手机和移动设备

[0014]因此,在本技术中,使用训练的
ML
模型的神经网络来移除噪声可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种计算机实现的方法,用于使用训练的机器学习
ML
模型来针对目标用户执行实时声音增强,该方法包括:获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发言者嵌入向量;以及使用训练的
ML
模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的
ML
模型以执行个性化或非个性化噪声移除,来从有噪声的音频信号中移除噪声,同时保持目标用户的语音
。2.
根据权利要求1所述的方法,其中,使用训练的
ML
模型的神经网络来移除噪声包括:将有噪声的音频信号输入到训练的
ML
模型的编码器模块中;将向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的
ML
模型的解码器模块中;以及将所述向量与由解码器模块处理之后修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号
。3.
根据权利要求2所述的方法,其中,当存在发言者嵌入向量时,所述向量是发言者嵌入向量,并且训练的
ML
模型被切换以执行个性化噪声移除
。4.
根据权利要求3所述的方法,其中,从输出的增强的音频信号中移除外界噪声和
/
或多路重合噪声,同时保持目标用户的语音
。5.
根据权利要求2所述的方法,其中,当不存在发言者嵌入向量时,所述向量是零向量,并且训练的
ML
模型被切换以执行非个性化噪声移除
。6.
根据权利要求5所述的方法,其中,从输出的增强的音频信号中移除外界噪声,同时保持目标用户的语音
。7.
根据任何前述权利要求所述的方法,还包括通过以下步骤生成目标用户的发言者嵌入向量:获得目标用户的至少一个干净的音频信号;以及将发言者识别模型应用于目标用户的至少一个干净的音频信号,以生成表示目标用户的语音简档的发言者嵌入向量
。8.
根据权利要求1至7中任一项所述的方法,其中,所述有噪声的音频信号是在音频呼叫期间获得的,并且其中,所述方法还包括将由训练的
ML
模型处理之后的音频信号传送给音频呼叫中的另一个参与者
。9.
根据权利要求1至7中任一项所述的方法,其中,所述方法还包括将由训练的
ML
模型处理之后的音频信号输入到自动语音识别系统中
。10.
一种使用训练的机器学习
ML
模型来针对目标用户执行实时声音增强的装置,该装置包括:音频捕获设备;和至少一个处理器,耦合到存储器,该处理器被布置为:从音频捕获设备获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发...

【专利技术属性】
技术研发人员:A
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1