电子设备及其控制方法技术

技术编号:38215450 阅读:11 留言:0更新日期:2023-07-25 11:23
提供了一种电子设备及其控制方法。所述电子设备包括麦克风、存储器和处理器,所述处理器被配置为:当通过所述麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将所述多个候选参考向量和多个评估文本输入到TTS模型来获得多个合成声音,基于所述多个合成声音与所述用户之间的相似度和所述多个合成声音的特征来识别所述多个合成声音中的至少一个合成声音,并且将所述至少一个合成声音的参考向量存储在所述存储器中作为对应于所述用户的用于所述TTS模型的参考向量。电子设备可以使用根据机器学习、神经网络或深度学习算法中的至少一个学习的基于规则的模型或人工智能模型。能模型。能模型。

【技术实现步骤摘要】
【国外来华专利技术】电子设备及其控制方法


[0001]与本公开相一致的设备和方法涉及一种电子设备及其控制方法,更具体地,涉及一种用于提供文本到语音(TTS)服务的电子设备及其控制方法。

技术介绍

[0002]文本到语音(TTS)是指机器将文本合成(或转换)成人类语音的语音合成技术。
[0003]为了通过TTS服务提供与目标说话者的语音类似的风格(例如,音调、口音、传递速度、读音、读音和说话习惯)的语音,需要预先记录目标说话者说出的语音并处理所记录的语音数据的过程。为了实现与用于各种文本的目标说话者相似的风格的自然语音,需要通过诸如模型自适应和基于目标说话者对两百个或更多个句子(或一个小时或更多个小时的脚本)的口头语音的传递学习的方法的模型学习。
[0004]在提供个性化TTS服务方面存在困难,该个性化TTS服务提供一般用户的语音作为TTS服务的语音,因为目标说话者应该长时间地说出具有精确读音的大量句子,以将目标说话者的语音注册为如上所述的TTS服务的语音。同时,存在一种从目标说话者的语音获得参考向量并将文本和参考向量输入到TTS模型以获得具有目标说话者的语音特性的合成声音的方法,以提供个性化TTS服务。在这种情况下,存在这样的优点,即模型可能不被训练(零次/少次学习),但是存在可能不知道参考向量是否具有最佳性能(声音质量/韵律/读音/说话者相似度等)的缺点。

技术实现思路

[0005]本公开提供了一种用于使用一般用户的语音来提供文本到语音(TTS)服务的电子设备及其控制方法。
[0006]根据本公开的实施例,一种电子设备包括麦克风、存储有TTS模型和多个评估文本的存储器、以及处理器,所述处理器被配置为:当通过麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将多个候选参考向量和多个评估文本输入到TTS模型来获得多个合成声音,基于多个合成声音与用户语音之间的相似度、以及多个合成声音的特征来识别多个合成声音中的至少一个合成声音,并将所述至少一个合成声音的参考向量存储在存储器中作为对应于用户的TTS模型的参考向量。
[0007]根据本公开的另一个实施例,一种包括存储器的电子设备的控制方法,在存储器中存储了TTS模型和多个评估文本,所述控制方法包括:当通过麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将多个候选参考向量和多个评估文本输入到所TTS模型来获得多个合成声音,基于所述多个合成声音与所述用户语音之间的相似度以及所述多个合成声音的特征来识别多个合成声音中的至少一个合成声音,并将至少一个合成声音的参考向量存储在存储器中作为对应于用户的TTS模型的参考向量。
[0008]根据本公开的不同实施例,可以提供一种使用一般用户的语音来提供TTS服务的电子设备及其控制方法。
[0009]此外,根据本公开的实施例,系统可以被配置为对请求说出的用来注册TTS服务的语音并具有最佳性能的句子数量进行最小化处理。此外,根据本公开的实施例,可以通过用户的语音来提供个性化TTS服务,而无需为每个用户重新训练TTS模型。
附图说明
[0010]图1是用于描述根据本公开的实施例的电子设备的图;
[0011]图2是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图;
[0012]图3是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图;
[0013]图4是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图;
[0014]图5是用于描述根据本公开的实施例的获得参考向量的方法的图;
[0015]图6A是描述根据本公开的实施例的生成候选参考向量的方法的图;
[0016]图6B是描述根据本公开的实施例的生成候选参考向量的方法的图;
[0017]图6C是描述根据本公开的实施例的生成候选参考向量的方法的图;
[0018]图7是描述根据本公开的实施例的文本到语音(TTS)模型的图;
[0019]图8A是描述根据本公开的实施例的识别合成声音的方法的图;
[0020]图8B是描述根据本公开的实施例的识别合成声音的方法的图;
[0021]图8C是描述根据本公开的实施例的识别合成声音的方法的图;
[0022]图8D是描述根据本公开的实施例的识别合成声音的方法的图;
[0023]图9A是用于描述根据本公开的实施例的电子设备的硬件部件的图;
[0024]图9B是用于描述根据本公开的实施例的电子设备的附加硬件部件的图;以及
[0025]图10是说明根据本专利技术实施例的电子设备的控制方法的流程图。
具体实施方式
[0026]在描述本公开内容时,当确定与本公开内容相关的已知功能或配置的详细描述可能不必要地模糊本公开内容的要点时,将省略其详细描述。此外,可以以多种不同的形式修改以下实施例,并且本公开的范围和精神不限于以下实施例。相反,这些实施例使得本公开彻底和完整,并且被提供来将本公开的技术精神完全转移到本领域技术人员。
[0027]应当理解,本公开中提及的技术不限于特定实施例,而是包括根据本公开的实施例的所有修改、等同物和/或替换。在所有附图中,类似的部件将由类似的附图标记表示。
[0028]在本公开中使用的表述“第一”或“第二”可以指示各种部件,而不管部件的顺序和/或重要性,将仅用于将一个部件与其它部件区分开,并且不限制这些部件。
[0029]在本公开中,表述“A或B”、“A和/或B中的至少一个”、或“A和/或B中的一个或多个”可以包括一起列举的项目的所有可能的组合。例如,“A或B”、“A和B中的至少一个”、或“A或B中的至少一个”可以表示以下所有情况:1)包括至少一个A的情况,2)包括至少一个B的情况,或3)包括至少一个A和至少一个B两者的情况。
[0030]在本公开中,单数形式包括复数形式,除非上下文另外清楚地指示。应当理解,在说明书中使用的术语“包括”或“由

形成”规定了在说明书中提及的特征、数目、步骤、操
作、部分、部件或其组合的存在,但不排除一个或多个其它特征、数目、步骤、操作、部分、部件或其组合的存在或添加。
[0031]当提到任何部件(例如,第一部件)(可操作地或通信地)耦合到或连接到另一个部件(例如,第二部件)时,应当理解,任何部件直接耦合到另一个部件或可以通过另一个部件(例如,第三部件)耦合到另一个部件。另一方面,当提到任何部件(例如,第一部件)“直接耦合”或“直接连接”到另一部件(例如,第二部件)时,应当理解,另一部件(例如,第三部件)不存在于任何部件和另一部件之间。
[0032]在本公开中使用的表述“被配置(或设置)为”可以根据情况被表述“适于”、“有能力”、“被设计为”、“适于”、“制成”或“能够”替代。术语“被配置(或设置)为”可能不一定意味着硬件中的“被专门设计为”。相反,在一些情况下,表述“被本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种电子设备,包括:麦克风;存储有文本到语音TTS模型和多个评估文本的存储器;以及处理器,经配置以:当用户通过所述麦克风接收到用户语音时,获取用户所说的所述用户语音的参考向量;基于所述参考向量生成多个候选参考向量,通过将所述多个候选参考向量和所述多个评估文本输入到所述TTS模型来获得多个合成声音;基于所述多个合成声音与所述用户语音之间的相似度、以及所述多个合成声音的特征,来识别所述多个合成声音中的至少一个合成声音,以及将所述至少一个合成声音的参考向量存储在所述存储器中,作为对应于所述TTS模型的所述用户的参考向量。2.如权利要求1所述的电子设备,其中,所述多个候选参考向量包括:基于所述参考向量随机选择的至少一个参考向量、基于所述参考向量和用于训练所述TTS模型的参考向量生成的至少一个参考向量、以及通过将掩蔽向量应用于所述参考向量生成的至少一个参考向量。3.如权利要求1所述的电子设备,其中,所述处理器被配置为:通过将所述多个候选参考向量和所述多个评估文本输入到所述TTS模型,来获得基于所述多个候选参考向量中的每一个为所述多个评估文本中的每一个而生成的所述多个合成声音。4.如权利要求1所述的电子设备,其中,所述处理器被配置为:在所述多个合成声音中,识别与所述用户语音的相似度是预定阈值或以上的候选合成声音,以及基于所述候选合成声音中的每一个的韵律、读音或声音质量中的至少一个来识别所述候选合成声音的至少一个合成声音。5.如权利要求4所述的电子设备,其中,所述处理器被配置为:计算所述候选合成声音中的每一个的韵律得分、读音得分和声音质量得分,在所述候选合成声音中识别所述韵律得分、所述读音得分和所述声音质量得分中的每一个都是预定阈值或以上的至少一个合成声音。6.如权利要求4所述的电子设备,其中,所述多个评估文本包括属于多个域中的每一个的至少一个评估文本,处理器被配置为:根据所述多个域,基于所述多个候选合成声音中的每一个所属的域来划分所述多个候选合成声音,基于属于每个域的一个或多个候选合成声音中的每一个的韵律、读音、或声音质量中的至少一个,来识别每个域的所述至少一个合成声音。7.如权利要求6所述的电子设备,其中,根据每个评估文本所属的域,将所识别的至少一个合成声音的参考向量存储在所述存储器中。8.如权利要求7所述的电子设备,还包括输出接口,所述输出接口包括扬声器或显示器
中的至少一个,其中,所述处理器经配置以:在所述多个域中确定所述至少一个合成声音不存在的域,并确定根据对属于所确定的域的至少一个候选合成声音计算的韵律得分、读音得分和声音质量...

【专利技术属性】
技术研发人员:朴相俊闵庚甫朱基岘崔胜渡
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1