混合文本到语音制造技术

技术编号:37820974 阅读:16 留言:0更新日期:2023-06-09 09:55
一种用于从用户应用接收文本数据的混合文本到语音(TTS)系统的系统和方法;确定所接收的文本数据从该高速缓存中丢失;向远程TTS引擎并向设备中的TTS引擎两者发送所接收的文本数据;从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据;以及基于选择策略来选择或组合来自该远程TTS引擎或该设备中的该TTS引擎的语音数据。该语音数据被传送到该用户应用。用。用。

【技术实现步骤摘要】
【国外来华专利技术】混合文本到语音

技术介绍

[0001]文本到语音(TTS)被用于许多场景,包括现代交通工具和物联网(IoT)设备。TTS应用使用在线TTS系统和离线或本地TTS系统两者,每一个都有优点和缺点。在线TTS系统可能具有更高质量、更易更新,但需要网络连接才能运行。离线TTS系统可以在没有网络连接的情况下运行,但可能具有相对较低的质量并且更难更新。混合TTS系统使用在线TTS系统和离线TTS系统两者,其中在线TTS在可用时被使用而离线TTS系统被用作次要选项。然而,这些混合系统在提供无缝、一致的用户体验、高效的计算资源管理以及设计和实现鲁棒的混合在线

离线系统的用户开发努力方面面临挑战。例如,在线和离线TTS系统之间的转换通常会分散注意力、容易延迟、并且具有不一致的质量。

技术实现思路

[0002]提供本
技术实现思路
以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本
技术实现思路
并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于帮助确定所要求保护的主题的范围。
[0003]描述了一种用于混合文本到语音软件开发工具包的方法。该方法包括:从用户应用接收文本数据;确定所接收的文本数据未被存储在高速缓存中;向远程文本到语音(TTS)引擎和设备中的TTS引擎发送所接收的文本数据;从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据;基于选择策略来选择来自该远程TTS引擎、该设备中的该TTS引擎或两者的语音数据;以及将所选择的语音数据传送到用户应用。
附图说明
[0004]根据附图阅读以下详细描述将更好地理解本说明书,在附图中:
[0005]图1是例示根据一实施例的用于混合文本到语音(TTS)架构的系统的框图;
[0006]图2是例示根据一实施例的用于混合TTS系统的系统的框图;
[0007]图3A和3B是例示根据一实施例的用于混合TTS系统的计算机化方法的序列图;
[0008]图4是例示根据一实施例的用于从远程TTS或本地TTS中的一者或多者选择语音数据的计算机化方法的流程图;
[0009]图5是例示根据一实施例的用于操作高速缓存的计算机化方法的流程图;
[0010]图6是例示根据一实施例的用于混合TTS系统的计算机化方法的流程图;以及
[0011]图7将根据一实施例的计算装置例示为功能框图。
[0012]在整个附图中相应的附图标记指示相应的部件。在图1至图7中,系统被例示为示意图。附图可能没有按比例绘制。
具体实施方式
[0013]本公开的各方面提供了一种用于混合文本到语音(TTS)架构的计算机化方法和系统,其并行地利用在线TTS和本地设备TTS来提供无缝的用户体验。在线(例如,云、基于云、
远程或设备外)TTS系统可以提供比离线(例如,设备、基于设备、设备上或本地)TTS系统更高的分辨率和质量,但由于网络连接要求,在线TTS系统并不总是可用的。由于包括不稳定的网络连接、缺乏网络连接等的各种原因,通常提供应用来管理远程TTS和本地TTS系统之间的切换。传统应用包括用于与远程TTS应用编程接口(API)交互的远程TTS处理和用于与本地设备TTS交互的本地设备TTT处理的单独机制。在这些平台中,由于对应用本身执行的大量处理,应用承受了巨大的压力。此外,为远程TTS和本地TTS管理单独的TTS系统导致低效,这是由于当应用由于网络连接断开而被迫从执行远程TTS系统切换到执行本地TTS时引入的等待时间。
[0014]因此,本公开中提供的系统通过提供与远程TTS系统和本地TTS系统通信的统一TTS接口(其被暴露给用户应用)以非常规方式操作。使用TTS接口降低了计算资源的复杂性,诸如网络状态如何管理、设备状态如何管理、编码和开发工作如何降低复杂性等,以提高系统的鲁棒性。对网络和复杂逻辑的鲁棒处理需要大量的费力的事来产生高质量的设计、编码和测试。本文提供的TTS接口使得用户能够避免这种费力的事,同时保持系统的鲁棒性。本公开中提供的统一TTS接口与一个或多个用户应用通信,一个或多个用户应用与远程TTS系统和本地TTS系统中的每一者分离,这减少了对面向用户的用户应用的处理要求。提供了策略控制器,该策略控制器与统一TTS接口通信,并且并行地向远程TTS系统和本地TTS系统中的每一者传送请求,其中包括用于语音生成的文本数据。在一些示例中,统一TTS接口对来自远程TTS系统的结果进行优先级排序,并在远程TTS系统超时、不稳定或不提供可接受的语音生成时使用来自本地TTS系统的结果。处理要求因此被减少,同时提供了无缝的用户体验,该体验可以更快地返回比当前解决方案更准确的TTS结果。
[0015]此外,由于基于设备的TTS服务和远程或基于网络的TTS服务之间的切换,一些传统解决方案提供了负面的用户体验。当前的解决方案通常在网络运行良好且可用时调用基于远程的TTS,而在网络运行不正常时调用基于设备的TTS服务。由于来自基于远程的TTS服务和基于设备的TTS服务的输出听起来完全不同,用户有时会听到似乎两种不同的声音。这会导致负面的端到端用户体验。因此,由于基于设备的TTS服务和基于远程的TTS服务之间共享语音人才数据和类似的模型结构,本公开的各种实现提供了基于设备的TTS服务和基于远程的TTS服务之间经改进的切换,这基本上消除了基于设备的TTS服务和基于远程的TTS服务之间在前景、时间和保真度方面的差异。
[0016]本公开的各方面描述了与基于本地设备的TTS系统相反的基于远程的TTS系统。在一些示例中,术语“远程”和“本地”用于区分两个TTS系统执行操作的位置,并且这包括各种配置。例如,“远程”意味着可经由网络访问而“本地”意味着无需网络即可访问。在其他示例中,“远程”意味着离开设备而“本地”意味着在设备上。在其他示例中,“远程”意味着不在现场而“本地”意味着在现场。术语“远程”和“本地”也可以通过连接速度来区分。例如,远程TTS系统的访问时间比本地TTS系统长。
[0017]本公开的各方面还可与第一TTS系统和第二TTS系统一起操作,其中第二TTT系统比第一TTS更复杂,并且处理TTS数据需要更长的时间。例如,第二TTS系统使用机器学习,而第一TTS系统仅存储缓存的查找表。在另一示例中,第二TTS系统是动态的(例如,接收定期或频繁更新),而第一TTS系统则是静态的(例如,不定期或不频繁更新)。本文描述的第一和第二TTS系统可以是用于将文本数据转换成音频数据的任何架构的一部分。
[0018]本公开的各方面还可用于经常遇到不稳定网络连接或缺乏网络连接的非平稳平台(诸如交通工具)。与远程系统和本地系统中的每一个进行通信的统一TTS接口减少对面向用户的用户应用的处理要求并减少计算资源复杂性,从而在保持系统的鲁棒性的同时增加系统的鲁棒性,如本文所描述的。
[0019]图1是例示根据一实施例的用于混合TTS系统的架构的框图。图1中所示的系统100仅用于说明。在不脱离本公开的范围的情况下,可以使用系统100的其他示例。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,包括:至少一个处理器;以及包括高速缓存和计算机程序代码的至少一个存储器;所述至少一个存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使得所述至少一个处理器进行以下操作:从用户应用接收文本数据;确定所接收的文本数据从所述高速缓存中丢失;将所接收的文本数据发送到远程文本到语音(TTS)引擎并发送到所述设备中的TTS引擎两者;从所述远程TTS引擎和所述设备中的所述TTS引擎两者接收语音数据,所接收的语音数据对应于所接收的文本数据;基于选择策略来选择从所述远程TTS引擎、所述设备中的所述TTS引擎或两者接收的语音数据;以及将所选择的语音数据传送到所述用户应用。2.如权利要求1所述的设备,其中所述选择策略包括对认知驱动策略、性能驱动策略或质量驱动策略中的至少一者进行优先级排序的规则。3.如权利要求1所述的设备,其中所述选择策略是反应式选择策略或主动式选择策略中的至少一者。4.如权利要求1所述的设备,其中所述处理器被进一步配置成:基于所述选择策略选择从所述远程TTS引擎和所述设备中的所述TTS引擎两者生成的所述语音数据;将所选择的语音数据组合成综合语音数据,其中所述综合语音数据包括从所述远程TTS引擎生成的所述语音数据中的至少一部分和从所述设备中的所述TTS引擎生成的所述语音数据中的至少一部分;以及传送所述综合语音数据。5.如权利要求1所述的设备,其中所述处理器被进一步配置成:基于传输策略来确定将所接收的文本数据发送到所述远程TTS引擎和所述设备中的所述TTS引擎;以及其中所述传输策略至少部分地基于所述选择策略。6.如权利要求5所述的设备,其中所述远程TTS引擎是在云中执行和存储的TTS引擎,并且其中所选择的语音数据是所接收的文本数据的音频版本。7.如权利要求1所述的设备,其中为了确定所接收的文本数据是否被存储在所述高速缓存中,所述至少一个处理器被进一步配置成标识所接收的文本数据是否与存储在所述高速缓存中的关键字相匹配。8.如权利要求7所述的设备,其中所述至少一个处理器被进一步配置成响应于标识所接收的文本数据被存储在所述高速缓存中来:标识与在所述高速缓存中标识的所接收的文本数据相对应的语音数据;以及绕过所述远程TTS引擎和所述设备中的所述TTS引擎并将所述相对应的语音数据传送到所述用户应用。9.一种计算机实现方法,包括:
从用户应用接收文本数据;确定所接收的文本数据从...

【专利技术属性】
技术研发人员:李金柱吴光宇李玉林魏银河赵晟陈宽
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1