语音生成方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:26532842 阅读:29 留言:0更新日期:2020-12-01 14:17
本公开的实施例公开了用于生成对话语音的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:在原始语音集合中确定包含一个说话人声音的语音,得到语音集合;基于上述语音集合,生成每个说话人的语音段集合;将目标数目个说话人的语音段集合中的语音段拼接起来,得到对话语音。该实施方式通过将多个不同说话人的个人说话语音片段拼接为对话语音,使对话语音中不同说话人之间的说话语音清晰、完整、无交叠。

【技术实现步骤摘要】
语音生成方法、装置、设备和计算机可读介质
本公开的实施例涉及计算机
,具体涉及语音生成方法、装置、设备和计算机可读介质。
技术介绍
随着人工智能技术的发展,可以使用人工智能技术进行对话语音中说话人的识别。训练说话人识别的模型时,往往需要大量已经标注了说话人的对话语音。可是现实中的对话语音经常会有多个说话人同时说话的情况。这导致不同说话人的语音相互交叠。或者对话中的语音不够清晰完整。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了用于生成对话语音的方法、装置、设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。第一方面,本公开的一些实施例提供了一种用于生成对话语音的方法,该方法包括:在原始语音集合中确定包含一个说话人声音的语音,得到语音集合;基于上述语音集合,生成每个说话人的语音段集合;将目标数目个说话人的本文档来自技高网...

【技术保护点】
1.一种语音生成方法,包括:/n在原始语音集合中确定包含一个说话人声音的语音,得到语音集合;/n基于所述语音集合,生成每个说话人的语音段集合;/n将目标数目个说话人的语音段集合中的语音段拼接起来,得到对话语音。/n

【技术特征摘要】
1.一种语音生成方法,包括:
在原始语音集合中确定包含一个说话人声音的语音,得到语音集合;
基于所述语音集合,生成每个说话人的语音段集合;
将目标数目个说话人的语音段集合中的语音段拼接起来,得到对话语音。


2.根据权利要求1所述的方法,其中,所述基于所述语音集合,生成每个说话人的语音段集合,包括:
对所述语音集合中每条语音,使用语音活性检测技术,确定属于第一类别的语音段;
将所述属于第一类别的语音段中属于目标类别的语音段添加到所述语音对应的说话人的语音段集合中。


3.根据权利要求2所述的方法,其中,所述第一类别包括人声、静音、音乐、噪声中的至少一项,目标类别包括人声和静音中的至少一项,以及,所述对所述语音集合中每条语音,使用语音活性检测技术,确定属于第一类别的语音段,包括:
确定所述语音中属于人声、静音、音乐、噪声中至少一项的语音段;
将属于人声和静音的语音段和属于人声的语音段确定为属于人声的语音段。


4.根据权利要求1所述的方法,其中,所述目标数目是在预先设定的数值范围内包含的正整数中随机确定的。


5.根据权利要求1所述的方法,其中,所述目标数目是在预先设定的数值范围内包含的正整数中按照预先设定的概率值确定的,所述概率值用于表征...

【专利技术属性】
技术研发人员:李入云蔡猛
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1