在对话期间文本转语音中的即时学习制造技术

技术编号:39257262 阅读:14 留言:0更新日期:2023-10-30 12:08
用于在对话期间在文本转语音(TTS)中的即时学习的方法包括接收存在于由用户说出的查询中的特定单词的用户发音(202)。该方法还包括接收存在于TTS输入中的相同特定单词的TTS发音(204),其中该特定单词的TTS发音不同于该特定单词的用户发音。该方法还包括获得与该特定单词相关联的用户发音相关特征(210)和TTS发音相关特征(230)。该方法还包括生成选择与最高置信度相关联的该特定单词的用户发音或TTS发音之一的发音决策(250)。该方法还包括提供TTS音频,该TTS音频包括使用该特定单词的用户发音或TTS发音对查询的响应的合成语音表示。示。示。

【技术实现步骤摘要】
【国外来华专利技术】在对话期间文本转语音中的即时学习


[0001]本公开涉及在对话期间文本转语音中的即时学习。

技术介绍

[0002]用户经常通过数字助理与启用语音的设备,诸如智能电话、智能手表和智能扬声器,进行交互。这些数字助理提供与用户的对话以使用户能够全部通过自然的会话交互完成任务并获得他们具有的问题的答案。理想情况下,在用户和数字助理之间的对话期间,用户应该能够经由指向他们的运行数字助理的启用语音的设备的口头查询就像用户在与另一个人交谈一样进行沟通。数字助理将这些口头查询提供给自动语音识别器(ASR)系统,以处理和识别语音请求,使得可以执行操作。此外,数字助理还将采用文本转语音(TTS)系统以将对查询的响应的文本表示转换为合成语音,以用于来自用户的启用语音的设备的可听输出。通常,在数字助理对话期间,在口头查询和对应的TTS响应之间的词汇中存在重叠,由此,口头查询中的单词的用户发音与当对查询的数字助理响应可听地输出为合成语音时存在于对查询的数字助理响应中的相同单词的TTS发音不同。

技术实现思路

[0003]本公开的一个方面提供了一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时使得数据处理硬件执行用于选择特定单词的用户发音或该特定单词的文本转语音发音中的哪一个更可靠地用于在文本转语音音频中使用的操作。操作包括接收存在于由用户说出的查询中的特定单词的用户发音。操作还包括接收存在于TTS输入中的相同特定单词的文本转语音(TTS)发音。TTS输入包括对查询的响应的文本表示,并且特定单词的TTS发音与特定单词的用户发音不同。操作还包括获得与特定单词的用户发音相关联的用户发音相关特征并获得与特定单词的TTS发音相关联的TTS发音相关特征。操作还包括生成选择与最高置信度相关联的特定单词的用户发音或特定单词的TTS发音之一以用于在TTS音频中使用的发音决策作为来自发音决策模型的输出,该发音决策模型被配置为接收用户发音相关特征和TTS发音相关特征作为输入。操作还包括针对来自与用户相关联的用户设备的可听输出,提供TTS音频,该TTS音频包括使用通过从发音决策模型输出的发音决策选择的特定单词的用户发音或特定单词的TTS发音之一对查询的响应的合成语音表示。
[0004]本公开的实现方式可以包括以下任选特征中的一个或多个。在一些实现方式中,操作还包括接收对应于由用户说出的查询的音频数据,并使用自动语音识别器(ASR)处理音频数据以生成查询的转录。在这些实现方式中,接收特定单词的用户发音包括以下中的至少一个:在使用ASR处理音频数据的同时,从ASR的间歇状态中提取特定单词的用户发音;从音频数据中提取特定单词的用户声学表示,该用户声学表示传达特定单词的用户发音;或者处理音频数据以生成传达特定单词的用户发音的用户音素表示。与特定单词的用户发音相关联的用户发音相关特征还可以包括与ASR识别音频数据中的特定单词相关联的一个
或多个置信度特征。
[0005]在一些示例中,与特定单词的用户发音相关联的用户发音相关特征包括以下中的至少一个:当由用户说出查询时用户的地理区域,与用户相关联的语言人口统计信息,或者当在由用户和/或其他用户说出的先前查询中发音特定单词时使用用户发音的频率。接收特定单词的TTS发音可以包括:接收包括对查询的响应的文本表示的TTS输入作为对TTS系统的输入;生成包括对查询的响应的初始合成语音表示的TTS音频的初始样本作为来自TTS系统的输出;以及从TTS音频的初始样本中提取特定单词的TTS声学表示,该TTS声学表示传达特定单词的TTS发音。
[0006]任选地,接收特定单词的TTS发音可以包括处理对查询的响应的文本表示以生成传达特定单词的TTS发音的TTS音素表示。在一些示例中,与特定单词的TTS发音相关联的TTS发音相关特征包括以下中的至少一个:特定单词的经过验证的优选发音,使用形成一个或多个辅助信息源的发音挖掘估计的特定单词的未经验证的发音,指示是否存在用于发音特定单词的任何其他变体的发音变体特征,或者指示特定单词的用户错误发音的可能性的发音复杂性特征。
[0007]在一些实现方式中,在生成选择特定单词的用户发音或特定单词的TTS发音之一的发音决策之后,操作还包括接收来自用户的显式反馈,该显式反馈指示用户更喜欢特定单词的用户发音或的特定单词的TTS发音的哪一个以用于在随后的TTS输出中发音该特定单词并基于来自用户的显式反馈来更新发音决策模型。这里,当来自用户的显式反馈指示用户更喜欢该特定单词的用户发音时,操作还包括更新TTS系统以在生成包括该特定单词的TTS音频时使用该特定单词的用户发音。在一些示例中,在针对来自用户设备的可听输出提供TTS音频之后,操作还包括接收对应于由用户或其他用户说出的包括该特定单词的后续查询的音频数据,确定隐式用户反馈,该隐式用户反馈指示该用户或其他用户在后续查询中对该特定单词的发音是否与通过发音决策选择的该特定单词的用户发音或该特定单词的TTS发音之一相同,并基于隐式用户反馈来更新发音决策模型。
[0008]本公开的另一方面提供了一种系统,该系统包括数据处理硬件与数据处理硬件通信并存储指令,指令当在数据处理硬件上执行时使得数据处理硬件执行用于选择特定单词的用户发音或该特定单词的文本转语音发音中的哪一个更可靠地用于在文本转语音音频中使用的操作。操作包括接收存在于由用户说出的查询中的特定单词的用户发音。操作还包括接收存在于TTS输入中的相同特定单词的文本转语音(TTS)发音。TTS输入包括对查询的响应的文本表示,并且特定单词的TTS发音与特定单词的用户发音不同。操作还包括获得与特定单词的用户发音相关联的用户发音相关特征并获得与特定单词的TTS发音相关联的TTS发音相关特征。操作还包括生成选择与最高置信度相关联的特定单词的用户发音或特定单词的TTS发音之一以用于在TTS音频中使用的发音决策作为来自发音决策模型的输出,该发音决策模型被配置为接收用户发音相关特征和TTS发音相关特征作为输入。操作还包括针对来自与用户相关联的用户设备的可听输出,提供TTS音频,该TTS音频包括使用通过从发音决策模型输出的发音决策选择的特定单词的用户发音或特定单词的TTS发音之一对查询的响应的合成语音表示。
[0009]该方面可以包括以下任选特征中的一个或多个。在一些实现方式中,操作还包括接收对应于由用户说出的查询的音频数据,并使用自动语音识别器(ASR)处理音频数据以
生成查询的转录。在这些实现方式中,接收特定单词的用户发音包括以下中的至少一个:在使用ASR处理音频数据的同时,从ASR的间歇状态中提取特定单词的用户发音;从音频数据中提取特定单词的用户声学表示,该用户声学表示传达特定单词的用户发音;或者处理音频数据以生成传达特定单词的用户发音的用户音素表示。与特定单词的用户发音相关联的用户发音相关特征可以包括与ASR识别音频数据中的特定单词相关联的一个或多个置信度特征。
[0010]在一些示例中,与特定单词的用户发音相关联的用户发音相关特征包括以下中的至少一个:当由用户说出查询时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法(500),所述计算机实现的方法当在数据处理硬件(610)上执行时使得所述数据处理硬件(610)执行操作,所述操作包括:接收存在于由用户说出的查询(12)中的特定单词的用户发音(202);接收存在于文本转语音TTS输入(152)中的相同特定单词的TTS发音(204),所述TTS输入(152)包括对所述查询(12)的响应的文本表示,并且所述特定单词的所述TTS发音(204)不同于所述特定单词的所述用户发音(202);获得与所述特定单词的所述用户发音(202)相关联的用户发音相关特征(210);获得与所述特定单词的所述TTS发音(204)相关联的TTS发音相关特征(230);生成选择与最高置信度相关联的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一以用于在TTS音频(154)中使用的发音决策(250)作为来自发音决策模型(200)的输出,所述发音决策模型(200)被配置为接收所述用户发音相关特征(210)和所述TTS发音相关特征(230)作为输入;以及针对来自与所述用户相关联的用户设备(110)的可听输出,提供所述TTS音频(154),所述TTS音频(154)包括使用通过从所述发音决策模型(200)输出的所述发音决策(250)选择的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一对所述查询(12)的所述响应的合成语音表示。2.根据权利要求1所述的方法(500),其中所述操作还包括:接收对应于由所述用户说出的所述查询(12)的音频数据(14);以及使用自动语音识别器ASR(140)处理所述音频数据(14)以生成所述查询(12)的转录(142)。3.根据权利要求2所述的方法(500),其中接收所述特定单词的所述用户发音(202)包括以下中的至少一个:在使用所述ASR(140)处理所述音频数据(14)的同时从所述ASR(140)的间歇状态中提取所述特定单词的所述用户发音(202);从所述音频数据(14)中提取所述特定单词的用户声学表示,所述用户声学表示传达所述特定单词的所述用户发音(202);或者处理所述音频数据(14)以生成传达所述特定单词的所述用户发音(202)的用户音素表示。4.根据权利要求2或3所述的方法(500),其中与所述特定单词的所述用户发音(202)相关联的所述用户发音相关特征(210)包括与所述ASR(140)识别所述音频数据(14)中的所述特定单词相关联的一个或多个置信度特征。5.根据权利要求1至4中任一项所述的方法(500),其中与所述特定单词的所述用户发音(202)相关联的所述用户发音相关特征(210)包括以下中的至少一个:当由所述用户说出所述查询(12)时所述用户的地理区域;与所述用户相关联的语言人口统计信息;或者当在由所述用户和/或其他用户说出的先前查询(12)中发音所述特定单词时使用所述用户发音(202)的频率。6.根据权利要求1至5中任一项所述的方法(500),其中接收所述特定单词的所述TTS发音(204)包括:
接收包括对所述查询(12)的所述响应的文本表示的所述TTS输入(152)作为对TTS系统(150)的输入;生成包括对所述查询(12)的所述响应的初始合成语音表示的TTS音频(154)的初始样本作为来自所述TTS系统(150)的输出;以及从所述TTS音频(154)的所述初始样本中提取所述特定单词的TTS声学表示,所述TTS声学表示传达所述特定单词的所述TTS发音(204)。7.根据权利要求1至6中任一项所述的方法(500),其中接收所述特定单词的所述TTS发音(204)包括处理对所述查询(12)的所述响应的所述文本表示以生成传达所述特定单词的所述TTS发音(204)的TTS音素表示。8.根据权利要求1至7中任一项所述的方法(500),其中与所述特定单词的所述TTS发音(204)相关联的所述TTS发音相关特征(230)包括以下中的至少一个:所述特定单词的经过验证的优选发音;使用来自一个或多个辅助信息源的发音挖掘估计的所述特定单词的未经验证的发音;指示是否存在用于发音所述特定单词的任何其他变体的发音变体特征;或者指示所述特定单词的用户错误发音的可能性的发音复杂性特征。9.根据权利要求1至8中任一项所述的方法(500),其中所述操作还包括,在生成选择所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一的所述发音决策(250)之后:接收来自所述用户的显式反馈,所述显式反馈指示所述用户更喜欢所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)中的哪一个以用于在随后的TTS输出(204)中发音所述特定单词;以及基于来自所述用户的所述显式反馈来更新所述发音决策模型(200)。10.根据权利要求9所述的方法(500),其中所述操作还包括,当来自所述用户的所述显式反馈指示所述用户更喜欢所述特定单词的所述用户发音(202)时,更新TTS系统(150)以在生成包括所述特定单词的TTS音频(154)时使用所述特定单词的所述用户发音(202)。11.根据权利要求1至10中任一项所述的方法(500),其中所述操作还包括,在针对来自所述用户设备(110)的可听输出提供所述TTS音频(154)之后:接收对应于由所述用户或其他用户说出的包括所述特定单词的后续查询(12)的音频数据(14);确定隐式用户反馈,所述隐式用户反馈指示所述用户或所述其他用户在所述后续查询(12)中对所述特定单词的发音是否与通过所述发音决策(250)选择的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一相同;以及基于所述隐式用户反馈来更新所述发音决策模型(200)。12.根据权利要求11所述的方法(500),其中所述操作还包括,当所述隐式反馈指示所述用户在所述后续查询(12)中对所述特定单词的发音与通过所述发音决策(250)选择的所述特定单词的所述用户发音(202)或所述特定单词的所述TTS发音(204)之一相同时,基于所述隐式用户反馈来更新TTS系统(150)。13.一种系统(600),包括:数据处理硬件(610);以及
存储器硬件(620),所述存储器...

【专利技术属性】
技术研发人员:维贾亚迪特亚
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1