电子装置及其操作方法制造方法及图纸

技术编号:33628214 阅读:29 留言:0更新日期:2022-06-02 01:20
提供了一种用于提供文本到语音(TTS)服务的电子装置及其操作方法。该电子装置的操作方法包括:基于特定说话者的话语输入来获得目标语音数据;基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量;通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标模型;通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据;以及输出所生成的输出数据。以及输出所生成的输出数据。以及输出所生成的输出数据。

【技术实现步骤摘要】
【国外来华专利技术】电子装置及其操作方法


[0001]本公开涉及一种用于提供文本到语音(TTS)服务的电子装置及其操作方法。更具体地,本公开涉及一种用于提供输出具有类似于特定人的语音的音频信号的服务的电子装置及其操作方法。

技术介绍

[0002]人工智能(AI)系统是能够实现人类级别智能的计算机系统,并且不同于现有的基于规则的智能系统,是指机器自主地学习、做出确定并变得更智能的系统。识别率可以增加且用户偏好可以与AI系统的迭代次数成比例地被更准确地理解,并且因此,现有的基于规则的智能系统已经逐渐被基于深度学习的AI系统替代。
[0003]AI技术包括机器学习(或深度学习)和使用机器学习的元素技术。
[0004]机器学习是指自主地对输入数据的特征进行分类/学习的算法技术,并且元素技术是指使用诸如深度学习的机器学习算法的技术,并且包括诸如语言理解、视觉理解、推断/预测、知识表示和操作控制的

[0005]可应用AI技术的各个领域的示例如下所描述。语言理解是指用于识别和应用/处理人类的语言/字符的技术,并且包括自然语言处理、机器翻译、对话系统、查询和响应、语音识别/合成等。视觉理解是指用于如人类视觉那样来识别和处理对象的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断/预测是指用于确定信息并在逻辑上执行推断和预测的技术,并且包括基于知识/概率的推断、优化预测、基于偏好的规划、推荐等。知识表示是指用于将人类经验信息自动处理成知识数据的技术,并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。操作控制是指用于车辆的自主驾驶和机器人的运动控制的技术,并且包括运动控制(例如,导航、防撞和驾驶控制)、操纵控制(例如,动作控制)等。
[0006]当前,连同能够通过使用AI技术来执行多种功能的电子装置的开发一起,正在开发用于提供TTS服务的电子装置。TTS是用于将文本转换成音频并输出音频的语音合成技术。
[0007]为了提供用于输出用户期望的具有类似于特定人的语音的音频的TTS服务,电子装置需要预先学习通过记录特定人的语音而获得的语音数据。
[0008]另外,需要一种提供这样的TTS服务的方法,该TTS服务用于输出具有类似于特定人的语音的音频并且甚至在通过记录特定人的语音而获得的少量语音数据用于预先训练时也具有优良的发音、韵律和音质。
[0009]上述信息仅作为背景信息提供,以帮助理解本公开。对于上述任何一个是否可以作为本公开的现有技术应用,没有做出确定,也没有做出断言。

技术实现思路

[0010]技术方案
[0011]本公开的各种方面在于至少解决上述问题和/或缺点,并且至少提供下述优点。因此,本公开的一方面在于提供一种用于提供文本到语音(TTS)服务的电子装置及其操作方法。
附图说明
[0012]从结合附图所作的以下描述,本公开的某些实施例的上述和其它方面、特征和优点将变得更加显而易见,在附图中:
[0013]图1是用于简要地描述根据本公开的实施例的电子装置的操作的示例的图;
[0014]图2是用于描述根据本公开的实施例的预训练模型和目标模型的训练的图;
[0015]图3是用于描述根据本公开的实施例的预训练模型和目标模型的结构的图;
[0016]图4是用于描述根据本公开的实施例的文本到语音(TTS)模型生成模块的结构的图;
[0017]图5是根据本公开的实施例的电子装置的操作方法的流程图;
[0018]图6是用于描述根据本公开的实施例的目标语音数据的数据特征的示例的表;
[0019]图7是用于描述根据本公开的实施例的确定目标语音数据的学习步骤的数量的方法的示例的表;
[0020]图8是用于描述根据本公开的实施例的目标语音数据的学习步骤的数量的示例的表;
[0021]图9是用于描述根据本公开的实施例的确定预训练模型的方法的示例的流程图;
[0022]图10是用于描述根据本公开的实施例的选择预训练模型的示例的流程图;
[0023]图11是用于描述根据本公开的实施例的选择预训练模型的示例的流程图;
[0024]图12是用于描述根据本公开的实施例的存储在存储器中的预训练模型的示例的表;
[0025]图13是用于描述根据本公开的实施例的选择预训练模型的示例的表;
[0026]图14是用于描述根据本公开的实施例的生成预训练模型的示例的流程图;
[0027]图15是用于描述根据本公开的实施例的生成预训练模型的详细方法的示例的流程图;
[0028]图16是用于描述根据本公开的实施例的生成预训练模型的详细方法的示例的流程图;
[0029]图17是用于描述根据本公开的实施例的基于预训练模型来确定初始学习率和衰减方法的示例的流程图;
[0030]图18是用于描述根据本公开的实施例的设置初始学习率和衰减方法的示例的流程图;
[0031]图19是用于描述根据本公开的实施例的用于获得目标语音数据的用户界面的示例的图;
[0032]图20是用于描述根据本公开的实施例的获得目标语音数据的示例的图;
[0033]图21是用于描述根据本公开的实施例的获得目标语音数据的示例的图;
[0034]图22是用于描述根据本公开的实施例的获得目标语音数据的示例的图;
[0035]图23是用于描述根据本公开的实施例的用于在生成TTS模型时设置用户的优先级
的用户界面的示例的图;
[0036]图24是用于描述根据本公开的实施例的用于检查生成TTS模型的结果的用户界面的示例的图;
[0037]图25是用于描述根据本公开的实施例的用于测试TTS模型的用户界面的示例的图;
[0038]图26是用于描述根据本公开的实施例的用于选择TTS模型的重新生成的用户界面的示例的图;
[0039]图27是用于描述根据本公开的实施例的电子装置和服务器的操作的图;
[0040]图28是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图;
[0041]图29是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图;
[0042]图30是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图;
[0043]图31是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图;
[0044]图32是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图;
[0045]图33是根据本公开的实施例的电子装置的框图;
[0046]图34是根据本公开的实施例的电子装置的详细框图;以及
[0047]图35是根据本公开的实施例的服务器的框图。
[0048]在所有附图中,相似的附图标记将被理解为指代相似的部分、部件和结构。
具体实施方式
[0049]提供参考附图的以下描述是为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种电子装置的操作方法,所述操作方法包括:基于特定说话者的话语输入来获得目标语音数据;基于所述目标语音数据的数据特征来确定所述目标语音数据的学习步骤的数量,其中所述数据特征包括数据量;通过基于所确定的学习步骤的数量、利用所述目标语音数据作为训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标模型;通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据;以及输出所生成的输出数据。2.如权利要求1所述的操作方法,其中,生成所述目标模型包括:基于所述目标语音数据的数据特征从存储在存储器中的一个或更多预训练模型之中选择用于学习所述目标语音数据的预训练模型。3.如权利要求1所述的操作方法,其中,生成所述目标模型包括:基于所确定的学习步骤的数量,从存储在存储器中的一个或更多预训练模型之中选择用于学习所述目标语音数据的预训练模型。4.如权利要求1所述的操作方法,其中,生成所述目标模型包括:基于存储在存储器中的多个预训练模型,生成用于学习所述目标语音数据的预训练模型。5.如权利要求4所述的操作方法,其中,生成所述预训练模型包括:基于所述目标语音数据的数据特征,从存储在所述存储器中的所述多个预训练模型之中选择第一经训练模型和第二经训练模型;基于所述目标语音数据的数据特征,确定用于所述第一经训练模型的训练的第一语音数据与用于所述第二经训练模型的训练的第二语音数据之间的组合比;基于所述组合比来组合所述第一语音数据和所述第二语音数据;以及通过将所组合的语音数据用作训练数据来生成所述预训练模型。6.如权利要求5所述的操作方法,其中,生成所述预训练模型包括:基于所述目标语音数据的数据特征,确定所述所组合的语音数据的学习步骤的数量;以及基于所述所组合的语音数据的学习步骤的数量,通过将所述所组合的语音数据用作训练数据来生成所述预训练模型。7.如权利要求1所述的操作方法,其中,所述目标语音数据的数据特征还包括:所述目标语音数据的声学特征、所述目标语音数据的说话者特征或所述目标语音数据的内容特征中的至少一者。8.如权利要求1所述的操作方法,其中,确定所述目标语音数据的学习步骤的数量包括:基于所述目标语音数据的数据特征中的至少一者与用于所述预训练模型的预先训练的语音数据的数据特征中的至少一者...

【专利技术属性】
技术研发人员:闵庚甫崔胜渡洪斗和
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1