【技术实现步骤摘要】
本公开涉及热词感知语音合成。
技术介绍
1、使能语音的环境(例如,家、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令,该系统字段化并回答查询和/或基于命令而执行功能。使能语音的环境可以使用分布在环境的不同房间或区域中的联网麦克风设备的网络来实施。这些设备可以使用热词来帮助辨别给定话语何时指向该系统,这与指向环境中存在的另一个体的话语相反。因此,设备可以在睡眠状态或休眠状态下操作,并且仅当检测到的话语包括热词时才唤醒。一旦设备被检测到的话语内的热词唤醒,设备就对热词和/或热词之后的一个或多个术语(term)执行进一步的处理。换句话说,热词和/或一个或多个术语形成将由设备执行的查询或话音命令。随着语音合成器在使能语音的环境内变得更加普遍,包含热词或包括听起来像热词的其他词/子词的合成话语可以使得设备从睡眠/休眠状态唤醒并开始处理合成话语,即使合成话语没有指向该设备。换句话说,合成语音会无意中激活设备,这常常令语音合成器的用户感到沮丧。因此,在环境内接收话语的系统必须具有某种方式来辨别指向该系统的人类语音的话语和从邻近设
...【技术保护点】
1.一种计算机实现的方法,当在数据处理硬件上被执行时,使得数据处理硬件执行操作,所述操作包括:
2.根据权利要求1所述的计算机实现的方法,其中,正训练样本包括与说出热词的一个或多个用户相对应的人为生成的音频数据。
3.根据权利要求1所述的计算机实现的方法,其中,检测音频输入数据中热词的存在包括使用所训练的热词检测器模型来检测音频输入数据中热词的存在,而不转录或语义解释音频输入数据。
4.根据权利要求1所述的计算机实现的方法,其中,TTS系统包括神经网络模型。
5.根据权利要求1所述的计算机实现的方法,其中,TTS系统被配
...【技术特征摘要】
1.一种计算机实现的方法,当在数据处理硬件上被执行时,使得数据处理硬件执行操作,所述操作包括:
2.根据权利要求1所述的计算机实现的方法,其中,正训练样本包括与说出热词的一个或多个用户相对应的人为生成的音频数据。
3.根据权利要求1所述的计算机实现的方法,其中,检测音频输入数据中热词的存在包括使用所训练的热词检测器模型来检测音频输入数据中热词的存在,而不转录或语义解释音频输入数据。
4.根据权利要求1所述的计算机实现的方法,其中,tts系统包括神经网络模型。
5.根据权利要求1所述的计算机实现的方法,其中,tts系统被配置为通过将相应的文本输入数据转换成合成语音话语来从相应的文本输入数据生成负训练样本的每个合成语音话语。
6.根据权利要求1所述的计算机实现的方法,其中,热词检测器模型包括神经网络。
7.根据权利要求1所述的计算机实现的方法,其中,所训练的热词检测器模型被配置为在用户设备上发起唤醒过程。
8.根据权利要求7所述的计算机实现的方法,其中,唤醒过程被配置为处理音频输入数据中的热词和/或热词之后的一个或多个其他术语。
9.根据权利要求1所述的计算机实现的方法,其中,所训练的热词检测器模型还被配置为辨别音频输入数据中合成语音和非合成语音的存在。
10.根据权利要求9所述的计算机实现的方法,其中,当音频输入数据包括合成语...
【专利技术属性】
技术研发人员:A·克拉库恩,M·沙里菲,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。