电子设备及其控制方法技术

技术编号：38215450 阅读：11 留言：0更新日期：2023-07-25 11:23

提供了一种电子设备及其控制方法。所述电子设备包括麦克风、存储器和处理器，所述处理器被配置为：当通过所述麦克风接收到用户语音时，获得用户所说的用户语音的参考向量，基于所述参考向量生成多个候选参考向量，通过将所述多个候选参考向量和多个评估文本输入到TTS模型来获得多个合成声音，基于所述多个合成声音与所述用户之间的相似度和所述多个合成声音的特征来识别所述多个合成声音中的至少一个合成声音，并且将所述至少一个合成声音的参考向量存储在所述存储器中作为对应于所述用户的用于所述TTS模型的参考向量。电子设备可以使用根据机器学习、神经网络或深度学习算法中的至少一个学习的基于规则的模型或人工智能模型。能模型。能模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】电子设备及其控制方法

[0001]与本公开相一致的设备和方法涉及一种电子设备及其控制方法，更具体地，涉及一种用于提供文本到语音(TTS)服务的电子设备及其控制方法。

技术介绍

[0002]文本到语音(TTS)是指机器将文本合成(或转换)成人类语音的语音合成技术。
[0003]为了通过TTS服务提供与目标说话者的语音类似的风格(例如，音调、口音、传递速度、读音、读音和说话习惯)的语音，需要预先记录目标说话者说出的语音并处理所记录的语音数据的过程。为了实现与用于各种文本的目标说话者相似的风格的自然语音，需要通过诸如模型自适应和基于目标说话者对两百个或更多个句子(或一个小时或更多个小时的脚本)的口头语音的传递学习的方法的模型学习。
[0004]在提供个性化TTS服务方面存在困难，该个性化TTS服务提供一般用户的语音作为TTS服务的语音，因为目标说话者应该长时间地说出具有精确读音的大量句子，以将目标说话者的语音注册为如上所述的TTS服务的语音。同时，存在一种从目标说话者的语音获得参考向量并将文本和参考向量输入到TTS模型以获得具有目标说话者的语音特性的合成声音的方法，以提供个性化TTS服务。在这种情况下，存在这样的优点，即模型可能不被训练(零次/少次学习)，但是存在可能不知道参考向量是否具有最佳性能(声音质量/韵律/读音/说话者相似度等)的缺点。

技术实现思路

[0005]本公开提供了一种用于使用一般用户的语音来提供文本到语音(TTS)服务的电子设备及其控制方法。
[0006]根据本公...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种电子设备，包括：麦克风；存储有文本到语音TTS模型和多个评估文本的存储器；以及处理器，经配置以：当用户通过所述麦克风接收到用户语音时，获取用户所说的所述用户语音的参考向量；基于所述参考向量生成多个候选参考向量，通过将所述多个候选参考向量和所述多个评估文本输入到所述TTS模型来获得多个合成声音；基于所述多个合成声音与所述用户语音之间的相似度、以及所述多个合成声音的特征，来识别所述多个合成声音中的至少一个合成声音，以及将所述至少一个合成声音的参考向量存储在所述存储器中，作为对应于所述TTS模型的所述用户的参考向量。2.如权利要求1所述的电子设备，其中，所述多个候选参考向量包括：基于所述参考向量随机选择的至少一个参考向量、基于所述参考向量和用于训练所述TTS模型的参考向量生成的至少一个参考向量、以及通过将掩蔽向量应用于所述参考向量生成的至少一个参考向量。3.如权利要求1所述的电子设备，其中，所述处理器被配置为：通过将所述多个候选参考向量和所述多个评估文本输入到所述TTS模型，来获得基于所述多个候选参考向量中的每一个为所述多个评估文本中的每一个而生成的所述多个合成声音。4.如权利要求1所述的电子设备，其中，所述处理器被配置为：在所述多个合成声音中，识别与所述用户语音的相似度是预定阈值或以上的候选合成声音，以及基于所述候选合成声音中的每一个的韵律、读音或声音质量中的至少一个来识别所述候选合成声音的至少一个合成声音。5.如权利要求4所述的电子设备，其中，所述处理器被配置为：计算所述候选合成声音中的每一个的韵律得分、读音得分和声音质量得分，在所述候选合成声音中识别所述韵律得分、所述读音得分和所述声音质量得分中的每一个都是预定阈值或以上的至少一个合成声音。6.如权利要求4所述的电子设备，其中，所述多个评估文本包括属于多个域中的每一个的至少一个评估文本，处理器被配置为：根据所述多个域，基于所述多个候选合成声音中的每一个所属的域来划分所述多个候选合成声音，基于属于每个域的一个或多个候选合成声音中的每一个的韵律、读音、或声音质量中的至少一个，来识别每个域的所述至少一个合成声音。7.如权利要求6所述的电子设备，其中，根据每个评估文本所属的域，将所识别的至少一个合成声音的参考向量存储在所述存储器中。8.如权利要求7所述的电子设备，还包括输出接口，所述输出接口包括扬声器或显示器
中的至少一个，其中，所述处理器经配置以：在所述多个域中确定所述至少一个合成声音不存在的域，并确定根据对属于所确定的域的至少一个候选合成声音计算的韵律得分、读音得分和声音质量...

【专利技术属性】
技术研发人员：朴相俊，闵庚甫，朱基岘，崔胜渡，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人