电子设备及其控制方法技术

技术编号:28388443 阅读:31 留言:0更新日期:2021-05-08 00:18
电子设备基于正被输入的文本句子获得文本句子的韵律信息,将文本句子分割成多个句子元素,通过将多个句子元素和文本句子的韵律信息输入到文本到语音(TTS)模块来并行获得韵律信息被反映到多个句子元素中的每个句子元素的语音,并且对并行获得的多个句子元素的语音进行合并以输出文本句子的语音。

【技术实现步骤摘要】
【国外来华专利技术】电子设备及其控制方法
本公开涉及一种电子设备及其控制方法。更具体地,本公开涉及一种能够实现更自然发声的对话系统的电子设备及其控制方法。
技术介绍
近年来,人工智能(AI)系统已被用于各种领域。与现有的基于规则的智能系统不同,AI系统是机器学习、判断并迭代地改善分析和决策制定的系统。随着AI系统的使用增加,例如,准确度、识别率以及对用户品味的理解或预期可相应地增加。因此,现有的基于规则的智能系统正逐渐被基于深度学习的AI系统取代。AI技术是由机器学习(例如,深度学习)和利用机器学习的基本技术构成的。机器学习是能够对输入数据的特性进行分类或学习的算法技术。元素技术是使用机器学习算法(诸如深度学习)来模拟人脑的功能(诸如识别和判断)的技术。机器学习是由诸如语言理解、视觉理解、推理、预测、知识表示、运动控制等
构成的。实现AI技术的各种领域可包括以下领域。语言理解是用于识别、应用和/或处理人类语言或字符的技术,并且包括自然语言处理、机器翻译、对话系统、问答、语音识别或合成等。视觉理解是用于将对象识别和处理为人类视觉的技术,包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断预测是用于判断和逻辑地推断和预测信息的技术,包括基于知识和基于概率的推断、优化预测、基于偏好的计划、推荐等。知识表示是用于将人类经验信息自动化为知识数据的技术,包括知识构建(数据生成或分类)、知识管理(数据利用)等。运动控制是用于控制车辆的自主行驶和机器人的运动的技术,包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。近年来,已经提供了使用AI代理(例如,BixbyTM、AssistantTM、AlexaTM等)来提供对语音输入的响应的各种服务。特别地,神经文本到语音(TTS)技术的引入已经使得对输入文本和声学特征的关系进行综合建模,以输出通常自然的复合声音。特别地,在长文本的语音合成的情况下,存在这样的问题:随着语音合成时间增加,由人工智能(AI)代理输出的反馈语音变得更慢,并且用户可能感觉到与AI代理的对话变得不自然。在并行合成语音的情况下,通过分割反馈文本句子以推进反馈,存在这样的问题:被分割的文本句子的每个语音具有单独的韵律,并且语音间韵律不相连。因此,通常会整体输出不自然的反馈语音。因此,需要一种用于在提供自然反馈语音时推进反馈语音输出的AI对话系统技术。
技术实现思路
技术问题本公开的各方面至少解决了上述问题和/或缺点,并且至少提供了下面描述的优点。因此,本公开的一个方面是提供一种电子设备及其控制方法,该电子设备能够通过在反映整个文本句子的韵律信息时对被分割的文本句子并行地执行语音合成来实现更自然发声的对话系统。技术方案根据本公开的一个方面,提供了一种电子设备,包括被配置为存储至少一个指令的存储器和执行所述至少一个指令的处理器,其中,所述至少一个指令在被执行时使处理器进行控制以进行以下操作:基于获得文本输入,获得所述文本输入的韵律信息,将所述文本输入分割成多个片段,通过将所述多个片段和所述韵律信息输入到文本到语音(TTS)模块来并行地获得所述韵律信息被反映到所述多个片段中的每个片段的语音片段,并且通过合并语音片段来获得所述文本输入的语音。处理器可通过基于第一标准分割所述文本输入来获得多个第一片段,并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间,将所述多个第一片段输入到TTS模块。基于用于将所述多个第一片段中的至少一个第一片段转换为语音片段的第一处理时间大于或等于预定时间,通过基于第二标准分割所述至少一个第一片段来获得多个第二片段,并且基于用于将所述多个第二片段转换为语音片段的第二处理时间小于所述预定时间,将所述多个第二片段输入到TTS模块。基于第一标准是标点符号标准,第二标准基于子句,并且基于第一标准是子句标准,第二标准基于短语。基于所述文本输入的格式、语法结构和上下文中的至少一个,所述韵律信息可包括所述文本输入的语调信息和重音信息。所述多个片段中的每个片段可包括与所述文本输入中的顺序相关的索引信息,并且处理器可通过基于所述索引信息合并语音片段来获得所述文本输入的语音。TTS模块可以是深度神经网络文本到语音(DNNTTS)模块。电子设备还包括扬声器,并且处理器可控制扬声器输出应答语音并在应答语音之后输出所述文本输入的语音。多个应答语音可被存储在存储器中,并且处理器可基于用于获得所述文本输入的语音的处理时间从所述多个应答语音中识别所述应答语音。电子设备还可包括通信器和扬声器,并且处理器可通过将第一片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息被反映到第一片段中的每个第一片段的第一片段。通过通信器将所述多个片段中的其余片段和所述韵律信息发送到用于语音合成的外部装置。通过通信器从对所述其余片段执行语音合成的所述外部装置获得所述其余片段的其余语音。并且通过对并行获得的第一片段和从所述外部装置接收的所述其余语音进行合并来通过扬声器输出语音。第一片段可与所述文本输入的开始部分相应,并且处理器可通过输出第一片段并在输出第一片段之后输出从所述外部装置接收的所述其余语音来通过扬声器输出语音。根据本公开的一方面,提供了一种控制电子设备的方法,包括:基于文本输入,获得所述文本输入的韵律信息;将所述文本输入分割成多个片段;通过将所述多个片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息被反映到所述多个片段中的每个片段的语音片段;以及通过合并语音片段来获得所述文本输入的语音。分割步骤可包括通过基于第一标准分割所述文本输入来获得多个第一片段,并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间,将所述多个第一片段输入到TTS模块。基于用于将所述多个第一片段中的至少一个第一片段转换为语音片段的第一处理时间大于或等于预定时间,通过基于第二标准分割所述至少一个第一片段来获得多个第二片段,并且基于用于将所述多个第二片段转换为语音片段的第二处理时间小于所述预定时间,将所述多个第二片段输入到TTS模块。基于第一标准是标点符号标准,第二标准基于子句,并且基于第一标准是子句标准,第二标准基于短语。基于所述文本输入的格式、语法结构和上下文中的至少一个,所述韵律信息可包括所述文本输入的语调信息和重音信息。所述多个片段中的每个片段可包括与所述文本输入中的顺序相关的索引信息,并且所述获得所述文本句子的语音的步骤可包括通过基于所述索引信息合并语音片段来获得所述文本输入的语音。控制方法还可包括通过扬声器输出应答语音和在应答语音之后输出所述文本输入的语音。应答语音可包括多个应答语音,并且输出步骤可包括基于用于获得所述文本输入的语音的处理时间来识别所述应答语音。所述控制方法还可包括:通过将所述多个片段中的第一片段和所述韵律信息输入到文本到语音(TTS)模块来并行获得所述韵律信息本文档来自技高网
...

【技术保护点】
1.一种电子设备,包括:/n存储器,被配置为存储至少一个指令;以及/n处理器,被配置为执行存储在存储器中的所述至少一个指令,所述至少一个指令在被执行时使处理器进行控制以进行以下操作:/n基于获得文本输入,获得所述文本输入的韵律信息,/n将所述文本输入分割成多个片段,/n通过将所述多个片段和所述韵律信息输入到文本到语音TTS模块来并行地获得语音片段,其中,在语音片段中所述韵律信息被反映到所述多个片段中的每个片段,以及/n通过对语音片段进行合并来获得所述文本输入的语音。/n

【技术特征摘要】
【国外来华专利技术】20190228 KR 10-2019-0024241;20181114 US 62/767,1681.一种电子设备,包括:
存储器,被配置为存储至少一个指令;以及
处理器,被配置为执行存储在存储器中的所述至少一个指令,所述至少一个指令在被执行时使处理器进行控制以进行以下操作:
基于获得文本输入,获得所述文本输入的韵律信息,
将所述文本输入分割成多个片段,
通过将所述多个片段和所述韵律信息输入到文本到语音TTS模块来并行地获得语音片段,其中,在语音片段中所述韵律信息被反映到所述多个片段中的每个片段,以及
通过对语音片段进行合并来获得所述文本输入的语音。


2.根据权利要求1所述的电子设备,其中,处理器在执行所述至少一个指令时还被配置为:
通过基于第一标准分割所述文本输入来获得多个第一片段,并且基于用于将所述多个第一片段转换为语音片段的第一处理时间小于预定时间,将所述多个第一片段输入到TTS模块,
基于用于将所述多个第一片段中的至少一个第一片段转换为语音片段的第一处理时间大于或等于所述预定时间,通过基于第二标准分割所述至少一个第一片段来获得多个第二片段,以及
基于用于将所述多个第二片段转换为语音片段的第二处理时间小于所述预定时间,将所述多个第二片段输入到TTS模块。


3.根据权利要求2所述的电子设备,其中,第一标准包括标点符号标准并且第二标准包括子句标准,或者第一标准包括所述子句标准并且第二标准包括短语标准。


4.根据权利要求1所述的电子设备,其中,所述韵律信息基于所述文本输入的格式、语法结构和上下文中的至少一个包括所述文本输入的语调信息和重音信息。


5.根据权利要求1所述的电子设备,其中,所述多个片段中的每个片段包括与所述文本输入中的顺序相关的索引信息,并且
其中,处理器在执行所述至少一个指令时还被配置为通过基于所述索引信息对语音片段进行合并来获得所述文本输入的语音。


6.根据权利要求1所述的电子设备,其中,TTS模块是深度神经网络文本到语音DNNTTS模块。


7.根据权利要求1所述的电子设备,还包括:
扬声器,
其中,处理器在执行所述至少一个指令时还被配置为控制扬声器输出应答语音并且在所述应答语音之后输出所述文本输入的语音。


8.根据权利要求7所述的电子设备,其中,存储器还被配置为存储多个应答语音,并且
其中,处理器在执行所述至少一个指令时还被配置为:
基于用于获得所述文本输入的语音的处...

【专利技术属性】
技术研发人员:郑锺勋成昊相洪斗和闵庚甫吴殷美朱基岘
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1