【技术实现步骤摘要】
【国外来华专利技术】用于实时声音增强的方法和装置
[0001]本申请总体上涉及用于实时声音增强的方法,尤其涉及用于训练机器学习
ML
模型以实时为目标用户执行声音增强的计算机实现的方法和装置
。
技术介绍
[0002]真实世界的语音信号记录经常被环境噪声和干扰发言者
(speaker)
所损坏
。
音频源分离或语音增强技术可以潜在地用作音频预处理步骤,以抑制这样的噪声,以用于在许多应用中改进用户体验,包括移动语音通信
、
电话会议
、
助听器和其他下游音频识别
(recognition)
任务,诸如鲁棒的自动语音识别
(ASR)。
当前在移动和
IoT
设备上使用语音知觉应用的广泛趋势也已驱动了对开发可以在设备上高效运行的实时语音增强方案的研究兴趣
。
技术实现思路
[0003]技术问题
[0004]语音增强的最新进展已经改进了现有的非实时操作的语音增强方案的质量
。
典型地,这些方案用于清理收集的数据,以用于其他音频任务的训练
。
例如,语音增强技术集中于增强电话的感知质量或音频相关的下游任务的性能,诸如用于自动语音识别
ASR
的较低的词语错误率
WER。
[0005]存在大量旨在离线
(
即非实时
)
语音增强的工作
。
然而,目前,对于各种资源受限的设备 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种计算机实现的方法,用于使用训练的机器学习
ML
模型来针对目标用户执行实时声音增强,该方法包括:获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发言者嵌入向量;以及使用训练的
ML
模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的
ML
模型以执行个性化或非个性化噪声移除,来从有噪声的音频信号中移除噪声,同时保持目标用户的语音
。2.
根据权利要求1所述的方法,其中,使用训练的
ML
模型的神经网络来移除噪声包括:将有噪声的音频信号输入到训练的
ML
模型的编码器模块中;将向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的
ML
模型的解码器模块中;以及将所述向量与由解码器模块处理之后修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号
。3.
根据权利要求2所述的方法,其中,当存在发言者嵌入向量时,所述向量是发言者嵌入向量,并且训练的
ML
模型被切换以执行个性化噪声移除
。4.
根据权利要求3所述的方法,其中,从输出的增强的音频信号中移除外界噪声和
/
或多路重合噪声,同时保持目标用户的语音
。5.
根据权利要求2所述的方法,其中,当不存在发言者嵌入向量时,所述向量是零向量,并且训练的
ML
模型被切换以执行非个性化噪声移除
。6.
根据权利要求5所述的方法,其中,从输出的增强的音频信号中移除外界噪声,同时保持目标用户的语音
。7.
根据任何前述权利要求所述的方法,还包括通过以下步骤生成目标用户的发言者嵌入向量:获得目标用户的至少一个干净的音频信号;以及将发言者识别模型应用于目标用户的至少一个干净的音频信号,以生成表示目标用户的语音简档的发言者嵌入向量
。8.
根据权利要求1至7中任一项所述的方法,其中,所述有噪声的音频信号是在音频呼叫期间获得的,并且其中,所述方法还包括将由训练的
ML
模型处理之后的音频信号传送给音频呼叫中的另一个参与者
。9.
根据权利要求1至7中任一项所述的方法,其中,所述方法还包括将由训练的
ML
模型处理之后的音频信号输入到自动语音识别系统中
。10.
一种使用训练的机器学习
ML
模型来针对目标用户执行实时声音增强的装置,该装置包括:音频捕获设备;和至少一个处理器,耦合到存储器,该处理器被布置为:从音频捕获设备获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。