生成模型推理中的动态回火采样制造技术

技术编号:34318216 阅读:31 留言:0更新日期:2022-07-30 23:35
一种方法(800)包括在事件期间获得先前输出音频样本(22)的序列。在事件期间的每个时间步(322)处,该方法包括生成用于该时间步的可能输出音频样本的概率分布。每个样本包括指示对应样本表示时间步处的话语的一部分的可能性的相应概率(164)。该方法还包括基于在该时间步之前的时间步的数量以及初始、最小和最大温度采样值(324、326、328)的函数来确定温度采样值(332)。该方法还包括将温度采样值应用于概率分布以调整选择可能样本的概率,并基于调整后的概率随机地选择可能样本中的一个。该方法还包括使用随机地选择的样本生成合成语音(172)。(172)。(172)。

【技术实现步骤摘要】
【国外来华专利技术】生成模型推理中的动态回火采样


[0001]本公开涉及生成模型推理中的动态回火(tempered)采样。

技术介绍

[0002]回归生成模型可以用于丢包隐藏(packet loss concealment),这是一种用于掩盖网际协议语音(VoIP)通信中丢包的影响的技术。这些模型接收音频样本序列,并且可以直接推断序列中的下一个音频样本,或者可替代地,推断概率密度函数,该概率密度函数为多个音频样本中的每一个提供对应的音频样本是序列中的下一个音频样本的相对似然性。概率密度函数可以以多种方式被采样,包括直接采样、平均采样、模式采样和回火采样。

技术实现思路

[0003]本专利技术的一个方面提供一种对输出音频样本进行采样的方法。该方法包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本的序列。所述结束时间在所述丢包隐藏事件开始时发生。在所述丢包隐藏事件期间的多个时间步中的每个时间步处,该方法包括由数据处理硬件使用语音合成模型为所述对应时间步生成可能输出音频样本的概率分布。所述概率分布中的每个可能输出音频样本包括指示所述对应的可能输出音频样本表示所述对应时间步处的话语的一部分的可能性的相应概率。该方法还包括由所述数据处理硬件基于所述多个时间步中的对应时间步之前的时间步的数量、初始温度采样值、最小温度采样值和最大温度采样值的函数来确定温度采样值。该方法还包括由所述数据处理硬件将所述温度采样值应用于所述概率分布,以调整从所述概率分布选择可能输出音频样本的概率。该方法还包括由所述数据处理硬件基于与所述可能输出音频样本中的每一个相关联的经调整的概率来随机地选择所述概率分布的可能输出音频样本中的一个以及由所述数据处理硬件使用所述随机地选择的输出音频样本生成合成语音。
[0004]本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,所述函数是线性函数。在一些示例中,最大温度采样值为0.85。可选地,最小温度采样值为0.25。所述初始温度采样值可以与最小温度采样值相同。
[0005]确定所述温度采样值可以包括在所述丢包隐藏事件期间,确定所述多个时间步中的在所述对应时间步之前的时间步的数量;以及当所述时间步的数量满足阈值时,使所述温度采样值增加设定量。在一些实现方式中,阈值是十个时间步的倍数。设定量可以是0.1。在一些示例中,确定所述温度采样值包括在所述丢包隐藏事件期间,基于所述多个时间步中的在所述对应时间步之前的时间步的数量来增加所述温度采样值。可选地,确定所述温度采样值进一步包括:一旦所述温度采样值等于所述最大温度采样值,则将所述温度采样值保持在所述最大温度采样值。
[0006]本专利技术的另一方面提供一种用于对输出音频样本进行采样的系统。所述系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。所述存储器硬件存储当在所述数据处
理硬件上执行时,使所述数据处理硬件执行操作的指令。所述操作包括:在活动语音通信会话中的丢包隐藏事件期间:在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本的序列。所述结束时间在所述丢包隐藏事件开始时发生。在所述丢包隐藏事件期间的多个时间步中的每个时间步处,所述操作包括使用语音合成模型为所述对应时间步生成可能输出音频样本的概率分布。所述概率分布中的每个可能输出音频样本包括指示所述对应的可能输出音频样本表示所述对应时间步处的话语的一部分的可能性的相应概率。所述操作还包括基于所述多个时间步中的对应时间步之前的时间步的数量、初始温度采样值、最小温度采样值和最大温度采样值的函数来确定温度采样值。所述操作还包括将所述温度采样值应用于所述概率分布,以调整从所述概率分布选择可能输出音频样本的概率。所述操作还包括基于与所述可能输出音频样本中的每一个相关联的经调整的概率来随机地选择所述概率分布的可能输出音频样本中的一个以及使用所述随机地选择的输出音频样本生成合成语音。
[0007]该方面可以包括以下可选特征中的一个或多个。在一些实现方式中,所述函数是线性函数。在一些示例中,所述最大温度采样值为0.85。可选地,所述最小温度采样值为0.25。所述初始温度采样值可以与所述最小温度采样值相同。
[0008]确定温度采样值可以包括在所述丢包隐藏事件期间,确定所述多个时间步中的在所述对应时间步之前的时间步的数量;以及当所述时间步的数量满足阈值时,使所述温度采样值增加设定量。在一些实现方式中,阈值是十个时间步的倍数。设定量可以是0.1。在一些示例中,确定温度采样值包括在所述丢包隐藏事件期间,基于所述多个时间步中的在所述对应时间步之前的时间步的数量来增加所述温度采样值。可选地,确定温度采样值进一步包括:一旦所述温度采样值等于所述最大温度采样值,则将所述温度采样值保持在所述最大温度采样值。
[0009]在附图和以下描述中阐述了本公开的一个或多个实现方式的细节。其他方面、特征和优点将从说明书和附图以及权利要求书中显而易见。
附图说明
[0010]图1是用于对输出音频样本进行采样的示例系统的示意图。
[0011]图2是在没有语音的情况下生成混串音输出的语音合成模型的曲线图。
[0012]图3是动态回火采样器的示例性组件的示意图。
[0013]图4是用于增加采样温度值的线性函数的曲线图的示意图。
[0014]图5是概率分布和经调整的概率分布的曲线图的示意图。
[0015]图6是在没有语音的情况下恒定采样温度输出和动态采样温度输出的曲线图的示意图。
[0016]图7是在存在强调节语音的情况下的恒定采样温度输出和动态采样温度输出的曲线图的示意图。
[0017]图8是用于对输出音频样本进行采样的方法的操作的示例布置的流程图。
[0018]图9是可以用于实现本文描述的系统和方法的示例计算设备的示意图。
[0019]各个附图中相同的附图标记表示相同的元件。
具体实施方式
[0020]丢包隐藏是一种用于掩盖网际协议语音(VoIP)通信中的丢包影响的技术。在VoIP通信中,音频数据(即,各方之间的通信的语音数据)通常作为分组(packet)通过传输控制分组/网际协议(TCP/IP)和/或用户数据报协议(UDP)网络发送。这些分组通常丢失、迟到或被破坏。当这种情况发生时,各方经历受损的音频质量。存在尝试补偿该丢包的许多不同的丢包隐藏技术。例如,零插入技术仅用全零替换丢失的分组。在这种情况下,接收方听到静音而不是丢失的分组。另一种常见的技术是波形替换,其通过重复先前接收的语音的一部分来填充丢失的音频数据。例如,波形替换可以仅重复最后接收的帧。该方法通常对于短丢失事件(例如,单个丢包)是有效的,但是随着丢失事件的长度增加,波形替换倾向于导致机器人发声语音。
[0021]基于模型的方法(诸如回归生成模型)越来越多地用于丢包隐藏。这些模型接收音频样本序列,并且可以直接推断该序列中的下一个音频样本,或者可替代地,推断概率密度函数,该概率密度函数对多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对输出音频样本(22)进行采样的方法(800),所述方法(800)包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件(144)在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本(22)的序列,所述结束时间在所述丢包隐藏事件开始时发生;以及在所述丢包隐藏事件期间的多个时间步(322)中的每个时间步处:由数据处理硬件(144)使用语音合成模型(160)为对应时间步生成可能输出音频样本(22)的概率分布(164、342),所述概率分布(164、342)中的每个可能输出音频样本(22)包括指示对应的可能输出音频样本(22)表示所述对应时间步处的话语的一部分的可能性的相应概率;由所述数据处理硬件(144)基于所述多个时间步(322)中的对应时间步之前的时间步(322)的数量、初始温度采样值(324)、最小温度采样值(326)和最大温度采样值(328)的函数来确定温度采样值(332);由所述数据处理硬件(144)将所述温度采样值(332)应用于所述概率分布(164、342),以调整从所述概率分布(164、342)选择可能输出音频样本(22)的概率;由所述数据处理硬件(144)基于与所述可能输出音频样本(22)中的每一个相关联的经调整的概率来随机地选择所述概率分布(164、342)的可能输出音频样本(22)中的一个;以及由所述数据处理硬件(144)使用随机地选择的输出音频样本(22)生成合成语音(172)。2.如权利要求1所述的方法(800),其中,所述函数是线性函数。3.如权利要求2所述的方法(800),其中,所述最大温度采样值(328)为0.85。4.如权利要求1

3中的任一项所述的方法(800),其中,所述最小温度采样值(326)为0.25。5.如权利要求1

4中的任一项所述的方法(800),其中,所述初始温度采样值(324)与所述最小温度采样值(326)相同。6.如权利要求1

5中的任一项所述的方法(800),其中,确定所述温度采样值包括:在所述丢包隐藏事件期间,确定所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量;以及当所述时间步(322)的数量满足阈值时,使所述温度采样值增加设定量。7.如权利要求6所述的方法(800),其中,所述阈值包括十个时间步的倍数。8.如权利要求6或7所述的方法(800),其中,所述设定量为0.1。9.如权利要求1

8中的任一项所述的方法(800),其中,确定所述温度采样值(332)包括:在所述丢包隐藏事件期间,基于所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量来增加所述温度采样值(332)。10.如权利要求1

9中的任一项所述的方法(800),其中,确定所述温度采样值(332)进一步包括:一旦所述温度采样值(332)等于所述最大温度采样值(328),则将所述温度采样值(332)保持在所述最大温度采样值(328)。11.一种系统(100),包括:数据处理硬件(144);以及...

【专利技术属性】
技术研发人员:帕布洛
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1