用于生成语音的方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号：25047473 阅读：25 留言：0更新日期：2020-07-29 05:36

本公开的实施例公开了用于生成语音的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取用户语音和目标说话人语音；提取用户语音中的文本特征向量；根据目标说话人语音，得到目标说话人信息；基于目标说话人信息和文本特征向量，生成目标语言的语音。该实施方式实现了任意的目标说话人声音的定制化语音生成，提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成语音的方法、装置、电子设备和计算机可读介质
本公开的实施例涉及计算机
，具体涉及用于生成语音的方法、装置、电子设备和计算机可读介质。
技术介绍
有关语音生成技术的研究已经是整个语音语言研究中非常重要的组成部分，国内外均有一些这方面的前期研究成果，但限于计算复杂度、存储量及计算实时性等多方面原因，早期工作大部分还停留在实验室阶段。但在很多方面中，语音生成技术的应用前景十分广泛。相关技术中，生成的语音往往都是同一种声音，无法生成任意说话人声音的语音生成。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了用于生成语音的方法、装置、电子设备和计算机可读介质，来解决以上
技术介绍
部分提到的技术问题。第一方面，本公开的一些实施例提供了一种用于生成语音的方法，该方法包括：获取用户语音和目标说话人语音；提取用户语音中的文本特征向量；根据目标说话人语音，得到目标说话人信息；基于目标说话人信息和文本特征向量，生成目标语言的语音。第二方面，本公开的一些实施例提供了一种生成语音装置，装置包括：获取单元，被配置成获取用户语音和目标说话人语音；提取单元，被配置成提取上述用户语音中的文本特征向量；第一生成单元，被配置成根据上述目标说话人语音，得到目标说话人信息；第二生成单元，被配置成基于...

【技术保护点】
1.一种用于生成语音的方法，包括：/n获取用户语音和目标说话人语音；/n提取所述用户语音中的文本特征向量；/n根据所述目标说话人语音，得到目标说话人信息；/n基于所述目标说话人信息和文本特征向量，生成目标语言的语音。/n

【技术特征摘要】
1.一种用于生成语音的方法，包括：
获取用户语音和目标说话人语音；
提取所述用户语音中的文本特征向量；
根据所述目标说话人语音，得到目标说话人信息；
基于所述目标说话人信息和文本特征向量，生成目标语言的语音。

2.根据权利要求1所述的方法，其中，所述提取用户语音中的文本特征向量，包括：
提取所述用户语音中的声学特征；
通过提取模型对声学特征进行分析，得到文本特征向量，其中，所述提取模型已通过第一样本训练样本集合进行了训练，所述第一训练样本集合包括样本声学特征和样本文本特征向量。

3.根据权利要求2所述的方法，其中，所述提取模型是以所述样本声学特征作为输入并以所述样本文本特征向量用于作为期望输出进行训练的。

4.根据权利要求1所述的方法，其中，所述根据所述目标说话人语音，得到目标说话人信息，包括：
通过生成模型对目标说话人语音进行分析，得到目标说话人信息，其中，所述生成模型已通过第二样本训练集合进行了训练，所述第二训练样本集合包括样本目标说话人语音和样本目标说话人信息。

5.根据权利要求4所述的方法，其中，所述生成模型是以所述样本目标说话人语音作为期望输入并以所述样本目标说话人信息作为期望输出进行训练的。

6.根据权利要求1所述的方法，其中，所...

【专利技术属性】
技术研发人员：汤本来，顾宇，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人