语音生成方法、装置、设备和计算机可读介质制造方法及图纸

技术编号：26306095 阅读：31 留言：0更新日期：2020-11-10 20:04

本公开的实施例公开了语音生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：通过对原始语音进行说话人分割，确定上述原始语音中每个说话语音片段的起始时间与结束时间，得到分割后的语音；确定上述原始语音中每个说话语音片段对应的声纹特征向量；将上述原始语音中每个说话语音片段对应的文本转换为目标语言文本，得到上述原始语音中每个说话语音片段对应的目标语言文本；基于上述原始语音中每个说话语音片段的起始时间与结束时间、上述说话语音片段对应的声纹特征向量和上述说话语音片段对应的目标语言文本，生成目标语音。该实施方式实现了将第一语言的音视频自动转换为第二语言的音视频。

全部详细技术资料下载

【技术实现步骤摘要】
语音生成方法、装置、设备和计算机可读介质
本公开的实施例涉及计算机
，具体涉及语音生成方法、装置、设备和计算机可读介质。
技术介绍
将第一语言的音视频转化为第二语言的音视频需要耗费大量的人力，不能保证第二语言的音视频与第一语言的音视频中说话语音片段时间节点的对应，以及，不能保证两者声纹特征的相似度，因此需要一种自动翻译配音技术。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了语音生成方法、装置、设备和计算机可读介质，来解决以上
技术介绍
部分提到的技术问题。第一方面，本公开的一些实施例提供了一种语音生成方法，该方法包括：通过对原始语音进行说话人分割，确定上述原始语音中每个说话语音片段的起始时间与结束时间，得到分割后的语音；确定上述原始语音中每个说话语音片段对应的声纹特征向量；将上述原始语音中每个说...

【技术保护点】
1.一种语音生成方法，包括：/n通过对原始语音进行说话人分割，确定所述原始语音中每个说话语音片段的起始时间与结束时间，得到分割后的语音；/n确定所述原始语音中每个说话语音片段对应的声纹特征向量；/n将所述原始语音中每个说话语音片段对应的文本转换为目标语言文本，得到所述原始语音中每个说话语音片段对应的目标语言文本；/n基于所述原始语音中每个说话语音片段的起始时间与结束时间、所述说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本，生成目标语音。/n

【技术特征摘要】
1.一种语音生成方法，包括：
通过对原始语音进行说话人分割，确定所述原始语音中每个说话语音片段的起始时间与结束时间，得到分割后的语音；
确定所述原始语音中每个说话语音片段对应的声纹特征向量；
将所述原始语音中每个说话语音片段对应的文本转换为目标语言文本，得到所述原始语音中每个说话语音片段对应的目标语言文本；
基于所述原始语音中每个说话语音片段的起始时间与结束时间、所述说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本，生成目标语音。

2.根据权利要求1所述的方法，其中，所述确定所述原始语音中每个说话语音片段对应的声纹特征向量，包括：
通过对所述分割后的语音进行说话人聚类，确定所述原始语音中每个说话语音片段对应的声纹特征向量。

3.根据权利要求1所述的方法，其中，所述基于所述原始语音中每个说话语音片段的起始时间与结束时间、所述说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本，生成目标语音，包括：
基于所述原始语音中每个说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本，生成目标说话语音片段，得到目标说话语音片段集合。

4.根据权利要求3所述的方法，其中，所述基于所述原始语音中每个说话语音片段的起始时间与结束时间、所述说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本，生成目标语音，还包括：
基于所述原始语音中每个说话语音片段的起始时间与结束时间，将所述目标说话语音片段集合中的各个目标说话语音片段进行拼接，得到所述目标语音。

5.根据权利要求3所述的方法，其中，所述基于所述原始语音中每个说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本，生成目标说话语音片段，包括：
将所述说话语音片段对应的声纹特征向量和所述说话语音片段对应的目标语言文本输入到预先训练好的语音...

【专利技术属性】
技术研发人员：蔡猛，孔亚鲁，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人