动态的文本到语音供应制造技术

技术编号:21374718 阅读:20 留言:0更新日期:2019-06-15 12:27
描述了动态文本到语音(TTS)过程和系统。响应于接收到向用户提供信息的命令,设备检索信息并确定用户和环境属性,该用户和环境属性包括:(i)当用户发出询问时设备与用户之间的距离;(ii)用户的语音特征。基于用户和环境属性,设备确定用户的可能情绪、以及用户和用户设备所处的可能环境。选择与用户的可能情绪和语音特征匹配的音频输出模板。音频输出模板还与用户和设备所处的环境兼容。使用所选择的音频输出模板将检索的信息转换为音频信号,并由设备输出。

Dynamic Text-to-Voice Supply

The dynamic text to speech (TTS) process and system are described. In response to receiving a command to provide information to the user, the device retrieves information and determines user and environment attributes, which include: (i) distance between the device and the user when the user asks; (ii) voice characteristics of the user. Based on the user and environment attributes, the device determines the user's possible emotions and the possible environment in which the user and the user's device are located. Choose an audio output template that matches the user's possible emotions and voice features. Audio output templates are also compatible with the environment of users and devices. The selected audio output template is used to convert the retrieved information into audio signals, which are output by the device.

【技术实现步骤摘要】
【国外来华专利技术】动态的文本到语音供应
本公开一般涉及语音合成。
技术介绍
设备越来越多地使用文本到语音(Text-to-speech,TTS)功能来提供音频输出。然而,TTS输出通常不能自动适应用户环境,并且只有少数有限的方法(诸如控制设备的音量)可用于控制TTS输出。
技术实现思路
根据一些实施方式,在用户设备上运行的TTS操作可以基于多个因素自动控制和修改音频输出,该多个因素包括用户的语音、用户的可能情绪以及用户设备所处的环境。例如,在一些实施方式中,用户设备可以接收向用户提供信息的命令。响应于接收到命令,用户设备检索与命令有关的信息,并且可以确定用户和环境属性,该用户和环境属性包括:(i)指示用户设备与用户之间的距离的接近度指示符;(ii)用户的语音特征,诸如音调或音高;(iii)环境噪音。用户设备还可以确定要通过其输出检索的信息的应用。用户设备选择与用户和环境属性匹配并且与用户和用户设备所处的环境兼容的音频输出模板。检索的信息被转换成符合所选择的音频输出模板的音频信号并且由用户设备输出。可以实施隐私和安全策略,使得用户设备可以维护用户隐私并不向第三方输出信息或响应第三方命令。根据一些实施方式,可以动态地生成由用户设备输出的音频信号以,例如,通过匹配用户说话的音调或音高或者通过发音某些单词或音节匹配用户的语音或情绪来模仿用户的语音或情绪的特征。在一些实施方案中,用户设备可以确定用户离用户设备有多远并相应地调整音频输出信号的音量或强度。在一些实施方式中,用户设备可以确定用户所处的环境的类型,并根据所确定的环境类型来调整音频输出信号。例如,用户设备可以确定用户处于拥挤的环境中并且可以增加音频输出信号的音量,使得用户尽管处于拥挤的环境中,也可以听到音频输出信号。在另一示例中,用户设备可以确定用户处于拥挤的环境中,并且可以从用户请求输出音频信号的许可,使得用户可能不想向第三方公开的信息保持私密。在一些实施方式中,本说明书中描述的主题的创新方面包括执行操作的计算机实施的方法。该操作包括由一个或多个计算设备基于以下中的一个或多个来确定一个或多个用户属性:(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符。操作还包括由一个或多个计算设备获得要输出的数据。操作还包括由一个或多个计算设备基于一个或多个用户属性选择音频输出模板。操作还包括由一个或多个计算设备使用所选择的音频输出模板生成包括数据的音频信号。操作还包括由一个或多个计算设备提供用于输出的音频信号。每个实施方式可以可选地包括以下特征中的一个或多个。例如,在一些实施方式中,与用户设备相关联的用户的语音特征包括与用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。在一些实施方式中,操作包括确定环境属性并基于所确定的环境属性确定环境的类型。基于所确定的环境的类型来选择音频输出模板。在一些实施方式中,所选择的音频输出模板包括振幅、频率、单词发音和音调数据,以用于配置用于输出的音频信号。所选择的音频输出模板包括与所确定的一个或多个用户属性匹配的属性。在一些实施方式中,选择音频输出模板的操作包括基于以下中的一个或多个来选择音频输出模板:(I)要输出的数据的类型、以及(II)用于提供要输出的数据的应用的类型。在一些实施方式中,操作包括接收输出数据的命令。该命令包括获得数据的用户请求或来自被编程为在特定时间输出数据的应用的指令。在一些实施方式中,基于指示用户与用户设备之间的距离的接近度指示符来确定一个或多个用户属性的操作包括:从第一麦克风获得音频信号数据,从第二麦克风获得音频信号数据,从一个或多个传感器获得传感器数据,以及基于传感器数据、来自第一麦克风的音频信号数据和来自第二麦克风的音频信号数据确定用户的可能位置和可能的距离。在一些实施方式中,操作包括从用户接收音频语音信号。为输出提供的音频信号具有与接收的音频语音信号匹配的音高、音调或振幅。这些方面的其他实施方式包括被配置为实施方式上述方法的动作的相应的系统、装置、计算机可读存储介质、以及计算机程序。实施方式可以与一系列技术优点相关联。通常,通过基于所选择的音频模板生成音频信号来实现优化的通信方法,使得可以以确保其易于理解的方式将信息通信传达给接收者。这最小化了错误地解释所通信传达的信息的可能性,否则可能促使用户请求输出重复的音频信号,增加了进一步的处理步骤且浪费资源。因此,可以减少与音频信号的生成相关联的计算设备上的负载。实施方式还可以与不需要浪费在音频信号的生成中使用的资源的优点相关联。例如,在安静音频信号适当或要求安静音频信号的环境中,相应的音频输出模板的选择避免了输出音频信号中不必要的振幅的需要,节省了功率。类似地,如果可以替代地使用与降低的资源消耗(诸如更低的功耗或处理复杂性)相关联的音高、音调或频率,则可以避免使用在生成具有特定音高、音调或频率的音频信号时可能消耗的资源。如果确定环境不安全,则通过防止输出音频信号,实施方式还可以与改进的安全性相关联。这提供了通过避免不必要的音频输出信号的生成来节省资源的进一步机会。在附图和以下描述中阐述了一个或多个实施方式的细节。根据描述、附图和权利要求,其他特征和优点将变得显而易见。附图说明图1A和图1B描绘了提供TTS输出的示例性场景。图2A和图2B描绘了提供TTS输出的示例性场景。图3描绘了提供TTS输出的示例性场景。图4描绘了示出用于提供TTS输出的方法的流程图。图5描绘了用于提供TTS输出的示例性系统。各附图中相同的参考编号和标记表示相同的元素。具体实施方式参考附图描述示例性实施方式。在图1A所示的示例性场景中,用户设备可以位于距用户近的位置处。当用户设备(A)接收到诸如短消息服务(ShortMessageService,SMS)消息或多媒体消息传送服务(MultimediaMessagingService,MMS)消息的消息时,用户设备可以确定消息传送应用用于输出消息内容并且该消息传送应用被配置用于TTS输出。然后,用户设备可以利用由传感器和麦克风获得的数据来确定用户和环境属性。例如,如下面更详细讨论的,用户设备可以致动(actuate)麦克风和传感器以监视用户的语音、检测环境条件、以及确定指示用户与用户设备的距离的接近度指示符。基于从传感器和麦克风接收的数据,由用户设备确定的接近度指示符可以指示用户可能在用户设备的例如12英寸以内。用户设备还可以确定用户和用户设备所处的环境不是嘈杂的环境。然后,用户设备可以将接收的消息中的内容转换为音频信号,并控制音频信号的输出处于与所确定的接近度指示符成比例的音量。如图1A所示,用户设备可以以相对低的音量输出音频信号,因为接近度指示符指示用户可能距用户设备大约12英寸并且因为用户设备周围的环境可能不是嘈杂的环境。例如,用户设备使用其音量是用户设备(B)的最大音量水平的四分之一的音频信号输出接收的消息“不要忘了将杂货带回家”。在图1B所示的示例性场景中,与图1A中所示的场景相比,用户设备可以位于更远离用户的位置。用户和用户设备可以分开例如8英尺。当用户设备(A)接收到诸如短消息服务(SMS)消息或多媒体消息传送服务(MMS)消息的消息时,用户设备可以确定消息传送应用用于输出消息本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,包括:由一个或多个计算设备基于以下中的一个或多个来确定一个或多个用户属性:(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符;由所述一个或多个计算设备获得要输出的数据;由所述一个或多个计算设备基于所述一个或多个用户属性选择音频输出模板;由所述一个或多个计算设备使用所选择的音频输出模板生成包括所述数据的音频信号;以及由所述一个或多个计算设备提供用于输出的音频信号。

【技术特征摘要】
【国外来华专利技术】2016.11.01 US 15/340,3191.一种计算机实施的方法,包括:由一个或多个计算设备基于以下中的一个或多个来确定一个或多个用户属性:(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符;由所述一个或多个计算设备获得要输出的数据;由所述一个或多个计算设备基于所述一个或多个用户属性选择音频输出模板;由所述一个或多个计算设备使用所选择的音频输出模板生成包括所述数据的音频信号;以及由所述一个或多个计算设备提供用于输出的音频信号。2.如权利要求1所述的计算机实施的方法,其中所述与用户设备相关联的用户的语音特征包括与所述用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。3.如权利要求1或权利要求2所述的计算机实施的方法,还包括:确定环境属性;以及基于所确定的环境属性确定环境的类型,其中,基于所确定的环境的类型来选择音频输出模板。4.如权利要求1或权利要求2所述的计算机实施的方法,其中,所选择的音频输出模板包括振幅、频率、单词发音和音调数据,以用于配置用于输出的音频信号;并且其中,所选择的音频输出模板包括与所确定的一个或多个用户属性匹配的属性。5.如权利要求1或权利要求2所述的计算机实施的方法,其中,选择音频输出模板包括基于以下中的一个或多个来选择音频输出模板:(I)要输出的数据的类型、以及(II)用于提供要输出的数据的应用的类型。6.如前述权利要求中任一项所述的计算机实施的方法,还包括:由所述一个或多个计算设备接收输出数据的命令,所述命令包括获得数据的用户请求、或来自被编程为在特定时间输出数据的应用的指令。7.如前述权利要求中任一项所述的计算机实施的方法,其中基于指示用户与用户设备之间的距离的接近度指示符来确定所述一个或多个用户属性包括:从第一麦克风获得音频信号数据;从第二麦克风获得音频信号数据;从一个或多个传感器获得传感器数据;以及基于传感器数据、来自第一麦克风的音频信号数据和来自第二麦克风的音频信号数据来确定用户的可能位置和可能距离。8.如权利要求1或权利要求2所述的计算机实施的方法,还包括:从用户接收音频语音信号,其中,为输出提供的音频信号具有与接收的音频语音信号匹配的音高、音调或振幅。9.包括指令的一个或多个非暂时性计算机可读存储介质,所述指令在由一个或多个计算设备运行时,使所述一个或多个计算设备执行包括以下各项的操作:基于(i)与用户设备相关联的用户的语音特征、以及(ii)指示用户与用户设备之间的距离的接近度指示符中的一个或多个来确定一个或多个用户属性;获得要输出的数据;基于所述一个或多个用户属性选择音频输出模板;使用所选择的音频输出模板生成包括所述数据的音频信号;以及提供用于输出的音频信号。10.如权利要求9所述的一个或多个非暂时性计算机可读存储介质,其中所述与用户设备相关联的用户的语音特征包括与用户相关联的音频语音信号中的音高、音调、频率和振幅中的一个或多个。11.如权利要求9或权利要求10...

【专利技术属性】
技术研发人员:JJS奥坎波
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1