【技术实现步骤摘要】
【国外来华专利技术】在对话期间文本转语音中的即时学习
[0001]本公开涉及在对话期间文本转语音中的即时学习。
技术介绍
[0002]用户经常通过数字助理与启用语音的设备,诸如智能电话、智能手表和智能扬声器,进行交互。这些数字助理提供与用户的对话以使用户能够全部通过自然的会话交互完成任务并获得他们具有的问题的答案。理想情况下,在用户和数字助理之间的对话期间,用户应该能够经由指向他们的运行数字助理的启用语音的设备的口头查询就像用户在与另一个人交谈一样进行沟通。数字助理将这些口头查询提供给自动语音识别器(ASR)系统,以处理和识别语音请求,使得可以执行操作。此外,数字助理还将采用文本转语音(TTS)系统以将对查询的响应的文本表示转换为合成语音,以用于来自用户的启用语音的设备的可听输出。通常,在数字助理对话期间,在口头查询和对应的TTS响应之间的词汇中存在重叠,由此,口头查询中的单词的用户发音与当对查询的数字助理响应可听地输出为合成语音时存在于对查询的数字助理响应中的相同单词的TTS发音不同。
技术实现思路
[0003]本公开的一个方面提供了一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时使得数据处理硬件执行用于选择特定单词的用户发音或该特定单词的文本转语音发音中的哪一个更可靠地用于在文本转语音音频中使用的操作。操作包括接收存在于由用户说出的查询中的特定单词的用户发音。操作还包括接收存在于TTS输入中的相同特定单词的文本转语音(TTS)发音。TTS输入包括对查询的响应的文本表示,并且特定单词的TTS发音与特定单 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法(500),所述计算机实现的方法当在数据处理硬件(610)上执行时使得所述数据处理硬件(610)执行操作,所述操作包括:接收存在于由用户说出的查询(12)中的特定单词的用户发音(202);接收存在于文本转语音TTS输入(152)中的相同特定单词的TTS发音(204),所述TTS输入(152)包括对所述查询(12)的响应的文本表示,并且所述特定单词的所述TTS发音(204)不同于所述特定单词的所述用户发音(202);获得与所述特定单词的所述用户发音(202)相关联的用户发音相关特征(210);获得与所述特定单词的所述TTS发音(204)相关联的TTS发音相关特征(230);生成选择与最高置信度相关联的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一以用于在TTS音频(154)中使用的发音决策(250)作为来自发音决策模型(200)的输出,所述发音决策模型(200)被配置为接收所述用户发音相关特征(210)和所述TTS发音相关特征(230)作为输入;以及针对来自与所述用户相关联的用户设备(110)的可听输出,提供所述TTS音频(154),所述TTS音频(154)包括使用通过从所述发音决策模型(200)输出的所述发音决策(250)选择的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一对所述查询(12)的所述响应的合成语音表示。2.根据权利要求1所述的方法(500),其中所述操作还包括:接收对应于由所述用户说出的所述查询(12)的音频数据(14);以及使用自动语音识别器ASR(140)处理所述音频数据(14)以生成所述查询(12)的转录(142)。3.根据权利要求2所述的方法(500),其中接收所述特定单词的所述用户发音(202)包括以下中的至少一个:在使用所述ASR(140)处理所述音频数据(14)的同时从所述ASR(140)的间歇状态中提取所述特定单词的所述用户发音(202);从所述音频数据(14)中提取所述特定单词的用户声学表示,所述用户声学表示传达所述特定单词的所述用户发音(202);或者处理所述音频数据(14)以生成传达所述特定单词的所述用户发音(202)的用户音素表示。4.根据权利要求2或3所述的方法(500),其中与所述特定单词的所述用户发音(202)相关联的所述用户发音相关特征(210)包括与所述ASR(140)识别所述音频数据(14)中的所述特定单词相关联的一个或多个置信度特征。5.根据权利要求1至4中任一项所述的方法(500),其中与所述特定单词的所述用户发音(202)相关联的所述用户发音相关特征(210)包括以下中的至少一个:当由所述用户说出所述查询(12)时所述用户的地理区域;与所述用户相关联的语言人口统计信息;或者当在由所述用户和/或其他用户说出的先前查询(12)中发音所述特定单词时使用所述用户发音(202)的频率。6.根据权利要求1至5中任一项所述的方法(500),其中接收所述特定单词的所述TTS发音(204)包括:
接收包括对所述查询(12)的所述响应的文本表示的所述TTS输入(152)作为对TTS系统(150)的输入;生成包括对所述查询(12)的所述响应的初始合成语音表示的TTS音频(154)的初始样本作为来自所述TTS系统(150)的输出;以及从所述TTS音频(154)的所述初始样本中提取所述特定单词的TTS声学表示,所述TTS声学表示传达所述特定单词的所述TTS发音(204)。7.根据权利要求1至6中任一项所述的方法(500),其中接收所述特定单词的所述TTS发音(204)包括处理对所述查询(12)的所述响应的所述文本表示以生成传达所述特定单词的所述TTS发音(204)的TTS音素表示。8.根据权利要求1至7中任一项所述的方法(500),其中与所述特定单词的所述TTS发音(204)相关联的所述TTS发音相关特征(230)包括以下中的至少一个:所述特定单词的经过验证的优选发音;使用来自一个或多个辅助信息源的发音挖掘估计的所述特定单词的未经验证的发音;指示是否存在用于发音所述特定单词的任何其他变体的发音变体特征;或者指示所述特定单词的用户错误发音的可能性的发音复杂性特征。9.根据权利要求1至8中任一项所述的方法(500),其中所述操作还包括,在生成选择所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一的所述发音决策(250)之后:接收来自所述用户的显式反馈,所述显式反馈指示所述用户更喜欢所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)中的哪一个以用于在随后的TTS输出(204)中发音所述特定单词;以及基于来自所述用户的所述显式反馈来更新所述发音决策模型(200)。10.根据权利要求9所述的方法(500),其中所述操作还包括,当来自所述用户的所述显式反馈指示所述用户更喜欢所述特定单词的所述用户发音(202)时,更新TTS系统(150)以在生成包括所述特定单词的TTS音频(154)时使用所述特定单词的所述用户发音(202)。11.根据权利要求1至10中任一项所述的方法(500),其中所述操作还包括,在针对来自所述用户设备(110)的可听输出提供所述TTS音频(154)之后:接收对应于由所述用户或其他用户说出的包括所述特定单词的后续查询(12)的音频数据(14);确定隐式用户反馈,所述隐式用户反馈指示所述用户或所述其他用户在所述后续查询(12)中对所述特定单词的发音是否与通过所述发音决策(250)选择的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一相同;以及基于所述隐式用户反馈来更新所述发音决策模型(200)。12.根据权利要求11所述的方法(500),其中所述操作还包括,当所述隐式反馈指示所述用户在所述后续查询(12)中对所述特定单词的发音与通过所述发音决策(250)选择的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一相同时,基于所述隐式用户反馈来更新TTS系统(150)。13.一种系统(600),包括:数据处理硬件(610);以及
存储器硬件(620),所述存储器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。