The dynamic text to speech (TTS) process and system are described. In response to receiving a command to provide information to the user, the device retrieves information and determines user and environment attributes, which include: (i) distance between the device and the user when the user asks; (ii) voice characteristics of the user. Based on the user and environment attributes, the device determines the user's possible emotions and the possible environment in which the user and the user's device are located. Choose an audio output template that matches the user's possible emotions and voice features. Audio output templates are also compatible with the environment of users and devices. The selected audio output template is used to convert the retrieved information into audio signals, which are output by the device.
【技术实现步骤摘要】
【国外来华专利技术】动态的文本到语音供应
本公开一般涉及语音合成。
技术介绍
设备越来越多地使用文本到语音(Text-to-speech,TTS)功能来提供音频输出。然而,TTS输出通常不能自动适应用户环境,并且只有少数有限的方法(诸如控制设备的音量)可用于控制TTS输出。
技术实现思路
根据一些实施方式,在用户设备上运行的TTS操作可以基于多个因素自动控制和修改音频输出,该多个因素包括用户的语音、用户的可能情绪以及用户设备所处的环境。例如,在一些实施方式中,用户设备可以接收向用户提供信息的命令。响应于接收到命令,用户设备检索与命令有关的信息,并且可以确定用户和环境属性,该用户和环境属性包括:(i)指示用户设备与用户之间的距离的接近度指示符;(ii)用户的语音特征,诸如音调或音高;(iii)环境噪音。用户设备还可以确定要通过其输出检索的信息的应用。用户设备选择与用户和环境属性匹配并且与用户和用户设备所处的环境兼容的音频输出模板。检索的信息被转换成符合所选择的音频输出模板的音频信号并且由用户设备输出。可以实施隐私和安全策略,使得用户设备可以维护用户隐私并不向第三方输出信息或响应第三方命令。根据一些实施方式,可以动态地生成由用户设备输出的音频信号以,例如,通过匹配用户说话的音调或音高或者通过发音某些单词或音节匹配用户的语音或情绪来模仿用户的语音或情绪的特征。在一些实施方案中,用户设备可以确定用户离用户设备有多远并相应地调整音频输出信号的音量或强度。在一些实施方式中,用户设备可以确定用户所处的环境的类型,并根据所确定的环境类型来调整音频输出信号。例如,用户设备可以确定用户处于拥挤的环境 ...
【技术保护点】
1.一种计算机实施的方法,包括:由一个或多个计算设备基于以下中的一个或多个来确定一个或多个用户属性:(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符;由所述一个或多个计算设备获得要输出的数据;由所述一个或多个计算设备基于所述一个或多个用户属性选择音频输出模板;由所述一个或多个计算设备使用所选择的音频输出模板生成包括所述数据的音频信号;以及由所述一个或多个计算设备提供用于输出的音频信号。
【技术特征摘要】
【国外来华专利技术】2016.11.01 US 15/340,3191.一种计算机实施的方法,包括:由一个或多个计算设备基于以下中的一个或多个来确定一个或多个用户属性:(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符;由所述一个或多个计算设备获得要输出的数据;由所述一个或多个计算设备基于所述一个或多个用户属性选择音频输出模板;由所述一个或多个计算设备使用所选择的音频输出模板生成包括所述数据的音频信号;以及由所述一个或多个计算设备提供用于输出的音频信号。2.如权利要求1所述的计算机实施的方法,其中所述与用户设备相关联的用户的语音特征包括与所述用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。3.如权利要求1或权利要求2所述的计算机实施的方法,还包括:确定环境属性;以及基于所确定的环境属性确定环境的类型,其中,基于所确定的环境的类型来选择音频输出模板。4.如权利要求1或权利要求2所述的计算机实施的方法,其中,所选择的音频输出模板包括振幅、频率、单词发音和音调数据,以用于配置用于输出的音频信号;并且其中,所选择的音频输出模板包括与所确定的一个或多个用户属性匹配的属性。5.如权利要求1或权利要求2所述的计算机实施的方法,其中,选择音频输出模板包括基于以下中的一个或多个来选择音频输出模板:(I)要输出的数据的类型、以及(II)用于提供要输出的数据的应用的类型。6.如前述权利要求中任一项所述的计算机实施的方法,还包括:由所述一个或多个计算设备接收输出数据的命令,所述命令包括获得数据的用户请求、或来自被编程为在特定时间输出数据的应用的指令。7.如前述权利要求中任一项所述的计算机实施的方法,其中基于指示用户与用户设备之间的距离的接近度指示符来确定所述一个或多个用户属性包括:从第一麦克风获得音频信号数据;从第二麦克风获得音频信号数据;从一个或多个传感器获得传感器数据;以及基于传感器数据、来自第一麦克风的音频信号数据和来自第二麦克风的音频信号数据来确定用户的可能位置和可能距离。8.如权利要求1或权利要求2所述的计算机实施的方法,还包括:从用户接收音频语音信号,其中,为输出提供的音频信号具有与接收的音频语音信号匹配的音高、音调或振幅。9.包括指令的一个或多个非暂时性计算机可读存储介质,所述指令在由一个或多个计算设备运行时,使所述一个或多个计算设备执行包括以下各项的操作:基于(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符中的一个或多个来确定一个或多个用户属性;获得要输出的数据;基于所述一个或多个用户属性选择音频输出模板;使用所选择的音频输出模板生成包括所述数据的音频信号;以及提供用于输出的音频信号。10.如权利要求9所述的一个或多个非暂时性计算机可读存储介质,其中所述与用户设备相关联的用户的语音特征包括与用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。11.如权利要求9或权利要求10...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。