热词感知语音合成制造技术

技术编号:41062195 阅读:21 留言:0更新日期:2024-04-24 11:14
一种方法(400),包括:接收用于转换成合成语音(160)的文本输入数据(302),并且使用被训练成检测分配给用户设备(110)的热词(130)的存在的热词感知模型(320)来确定文本输入数据的发音是否包括热词。热词被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。当文本输入数据的发音包括热词时,该方法还包括从文本输入数据生成音频输出信号(304),并将音频输出信号提供给音频输出设备(118)以输出音频输出信号。音频输出信号当被用户设备的音频捕获设备捕获时,被配置为阻止在用户设备上发起唤醒过程。

【技术实现步骤摘要】

本公开涉及热词感知语音合成


技术介绍

1、使能语音的环境(例如,家、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令,该系统字段化并回答查询和/或基于命令而执行功能。使能语音的环境可以使用分布在环境的不同房间或区域中的联网麦克风设备的网络来实施。这些设备可以使用热词来帮助辨别给定话语何时指向该系统,这与指向环境中存在的另一个体的话语相反。因此,设备可以在睡眠状态或休眠状态下操作,并且仅当检测到的话语包括热词时才唤醒。一旦设备被检测到的话语内的热词唤醒,设备就对热词和/或热词之后的一个或多个术语(term)执行进一步的处理。换句话说,热词和/或一个或多个术语形成将由设备执行的查询或话音命令。随着语音合成器在使能语音的环境内变得更加普遍,包含热词或包括听起来像热词的其他词/子词的合成话语可以使得设备从睡眠/休眠状态唤醒并开始处理合成话语,即使合成话语没有指向该设备。换句话说,合成语音会无意中激活设备,这常常令语音合成器的用户感到沮丧。因此,在环境内接收话语的系统必须具有某种方式来辨别指向该系统的人类语音的话语和从邻近设备输出的非指向该系统本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,当在数据处理硬件上被执行时,使得数据处理硬件执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法,其中,正训练样本包括与说出热词的一个或多个用户相对应的人为生成的音频数据。

3.根据权利要求1所述的计算机实现的方法,其中,检测音频输入数据中热词的存在包括使用所训练的热词检测器模型来检测音频输入数据中热词的存在,而不转录或语义解释音频输入数据。

4.根据权利要求1所述的计算机实现的方法,其中,TTS系统包括神经网络模型。

5.根据权利要求1所述的计算机实现的方法,其中,TTS系统被配置为通过将相应的文本...

【技术特征摘要】

1.一种计算机实现的方法,当在数据处理硬件上被执行时,使得数据处理硬件执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法,其中,正训练样本包括与说出热词的一个或多个用户相对应的人为生成的音频数据。

3.根据权利要求1所述的计算机实现的方法,其中,检测音频输入数据中热词的存在包括使用所训练的热词检测器模型来检测音频输入数据中热词的存在,而不转录或语义解释音频输入数据。

4.根据权利要求1所述的计算机实现的方法,其中,tts系统包括神经网络模型。

5.根据权利要求1所述的计算机实现的方法,其中,tts系统被配置为通过将相应的文本输入数据转换成合成语音话语来从相应的文本输入数据生成负训练样本的每个合成语音话语。

6.根据权利要求1所述的计算机实现的方法,其中,热词检测器模型包括神经网络。

7.根据权利要求1所述的计算机实现的方法,其中,所训练的热词检测器模型被配置为在用户设备上发起唤醒过程。

8.根据权利要求7所述的计算机实现的方法,其中,唤醒过程被配置为处理音频输入数据中的热词和/或热词之后的一个或多个其他术语。

9.根据权利要求1所述的计算机实现的方法,其中,所训练的热词检测器模型还被配置为辨别音频输入数据中合成语音和非合成语音的存在。

10.根据权利要求9所述的计算机实现的方法,其中,当音频输入数据包括合成语...

【专利技术属性】
技术研发人员:A·克拉库恩M·沙里菲
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1