【技术实现步骤摘要】
【国外来华专利技术】生成模型推理中的动态回火采样
[0001]本公开涉及生成模型推理中的动态回火(tempered)采样。
技术介绍
[0002]回归生成模型可以用于丢包隐藏(packet loss concealment),这是一种用于掩盖网际协议语音(VoIP)通信中丢包的影响的技术。这些模型接收音频样本序列,并且可以直接推断序列中的下一个音频样本,或者可替代地,推断概率密度函数,该概率密度函数为多个音频样本中的每一个提供对应的音频样本是序列中的下一个音频样本的相对似然性。概率密度函数可以以多种方式被采样,包括直接采样、平均采样、模式采样和回火采样。
技术实现思路
[0003]本专利技术的一个方面提供一种对输出音频样本进行采样的方法。该方法包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本的序列。所述结束时间在所述丢包隐藏事件开始时发生。在所述丢包隐藏事件期间的多个时间步中的每个时间步处,该方法包括由数据处理硬件使用语音合成模型为所述对应时间步生成可能输出音 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种对输出音频样本(22)进行采样的方法(800),所述方法(800)包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件(144)在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本(22)的序列,所述结束时间在所述丢包隐藏事件开始时发生;以及在所述丢包隐藏事件期间的多个时间步(322)中的每个时间步处:由数据处理硬件(144)使用语音合成模型(160)为对应时间步生成可能输出音频样本(22)的概率分布(164、342),所述概率分布(164、342)中的每个可能输出音频样本(22)包括指示对应的可能输出音频样本(22)表示所述对应时间步处的话语的一部分的可能性的相应概率;由所述数据处理硬件(144)基于所述多个时间步(322)中的对应时间步之前的时间步(322)的数量、初始温度采样值(324)、最小温度采样值(326)和最大温度采样值(328)的函数来确定温度采样值(332);由所述数据处理硬件(144)将所述温度采样值(332)应用于所述概率分布(164、342),以调整从所述概率分布(164、342)选择可能输出音频样本(22)的概率;由所述数据处理硬件(144)基于与所述可能输出音频样本(22)中的每一个相关联的经调整的概率来随机地选择所述概率分布(164、342)的可能输出音频样本(22)中的一个;以及由所述数据处理硬件(144)使用随机地选择的输出音频样本(22)生成合成语音(172)。2.如权利要求1所述的方法(800),其中,所述函数是线性函数。3.如权利要求2所述的方法(800),其中,所述最大温度采样值(328)为0.85。4.如权利要求1
‑
3中的任一项所述的方法(800),其中,所述最小温度采样值(326)为0.25。5.如权利要求1
‑
4中的任一项所述的方法(800),其中,所述初始温度采样值(324)与所述最小温度采样值(326)相同。6.如权利要求1
‑
5中的任一项所述的方法(800),其中,确定所述温度采样值包括:在所述丢包隐藏事件期间,确定所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量;以及当所述时间步(322)的数量满足阈值时,使所述温度采样值增加设定量。7.如权利要求6所述的方法(800),其中,所述阈值包括十个时间步的倍数。8.如权利要求6或7所述的方法(800),其中,所述设定量为0.1。9.如权利要求1
‑
8中的任一项所述的方法(800),其中,确定所述温度采样值(332)包括:在所述丢包隐藏事件期间,基于所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量来增加所述温度采样值(332)。10.如权利要求1
‑
9中的任一项所述的方法(800),其中,确定所述温度采样值(332)进一步包括:一旦所述温度采样值(332)等于所述最大温度采样值(328),则将所述温度采样值(332)保持在所述最大温度采样值(328)。11.一种系统(100),包括:数据处理硬件(144);以及...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。