语音切割方法、语音转换网络模型的训练方法及相关设备技术

技术编号:26224617 阅读:38 留言:0更新日期:2020-11-04 10:59
本发明专利技术提供一种语音切割方法、语音转换网络模型的训练方法及相关设备,该方法包括:将目标文本输入至预先训练的语音转换网络模型中,得到与目标文本对应的目标语音;将目标文本和目标语音输入至编解码网络模型中得到时长数组,时长数组包括目标文本中各文本字符在目标语音占据的时长;根据时长数组对目标语音进行切割,得到目标文本中每一文本字符对应的语音。本发明专利技术实施例由于可以确定每一文本字符在目标语音中占据的时长,因此可以根据目标文本中每个文本字符占据的时长对目标语音进行切割,实现对目标语音的准确切割,进而保证合成语音的清晰度。

【技术实现步骤摘要】
语音切割方法、语音转换网络模型的训练方法及相关设备
本专利技术涉及语音处理
,尤其涉及一种语音切割方法、语音转换网络模型的训练方法及相关设备。
技术介绍
目前,语音拼接合成技术主要的工作方式为:获取包含大量词组的样本语音,基于样本语音中的文本字符对样本语音进行切割,得到多个文本字符的语音,组成语音库。当需要合成某段话时,从语音库中找到对应文本字符的语音,并按照一定的顺序将多个文本字符的语音拼接起来,实现语音的合成。然而,在对样本语音进行切割的过程中,需要人工判断文本字符的语音在样本语音中的位置,这往往容易出现误差,难以精准的对样本语音进行切割。因此,现有技术中存在语音切割的准确度较差,导致合成的语音清晰度较差的问题。
技术实现思路
本专利技术实施例提供一种语音切割方法、语音转换网络模型的训练方法及相关设备,以解决现有技术中存在对语音切割的准确度较差,导致合成的语音清晰度较差的问题。第一方面,本专利技术实施例提供了一种语音切割方法,包括:将目标文本输入至预先训练的语音转换网络模型中,得到与所述目标本文档来自技高网...

【技术保护点】
1.一种语音切割方法,其特征在于,包括以下步骤:/n将目标文本输入至预先训练的语音转换网络模型中,得到与所述目标文本对应的目标语音;/n将所述目标文本和所述目标语音输入至编解码网络模型中得到时长数组,所述时长数组包括目标文本中各文本字符在所述目标语音占据的时长;/n根据所述时长数组对所述目标语音进行切割,得到所述目标文本中每一文本字符对应的语音。/n

【技术特征摘要】
1.一种语音切割方法,其特征在于,包括以下步骤:
将目标文本输入至预先训练的语音转换网络模型中,得到与所述目标文本对应的目标语音;
将所述目标文本和所述目标语音输入至编解码网络模型中得到时长数组,所述时长数组包括目标文本中各文本字符在所述目标语音占据的时长;
根据所述时长数组对所述目标语音进行切割,得到所述目标文本中每一文本字符对应的语音。


2.根据权利要求1所述的语音切割方法,其特征在于,所述将目标文本和所述目标语音输入至编解码网络模型中得到时长数组的步骤,包括:
按照目标文本中每一文本字符的位置顺序,将所述目标文本转换为拼音字符串,所述拼音字符串包括空格和拼音字符,所述拼音字符包括每一所述文本字符的拼音和音调,且同一所述文本字符的拼音和音调相邻设置,拼音位于音调之前,且各个拼音字符之间设置有空格;
根据预设的索引列表,确定所述拼音字符串中各个拼音、音调和空格在所述索引列表中的位置,得到索引值数组;
将所述索引值数组和所述目标语音输入至所述编解码网络模型中,生成N行M列的二维数组,其中N为索引值数组的索引值个数,M根据目标语音的时长确定,N和M均为正整数;
根据所述二维数组和所述目标语音的时长,确定所述索引值数组中每个索引值对应的时长,得到所述时长数组。


3.根据权利要求2所述的语音切割方法,其特征在于,所述根据所述二维数组和所述目标语音的时长,确定所述索引值数组中每个索引值对应的时长,得到所述时长数组的步骤包括:
确定所述二维数组各行概率值中的最大值;
根据各所述最大值在所述二维数组各行概率值中的位置,得到与各所述最大值对应的位置参数;
将各所述位置参数按照所述二维数组的行数进行排序,得到位置数组;
将所述位置数组中的各所述位置参数乘以语音帧长,得到所述时长数组;
其中,根据所述目标语音的时长和所述二维数组的列数M确定所述语音帧长。


4.根据权利要求3所述的语音切割方法,其特征在于,所述根据各所述最大值在所述二维数组各行概率值中的位置,得到与各所述最大值对应的位置参数的步骤包括:
根据所述二维数组每一行概率值的排列顺序,确定每一行概率值中的最大值的位置编号;
将各所述最大值的位置编号作为与各所述最大值对应的位置参数。


5.根据权利要求2所述的语音切割方法,其特征在于,所述根据所述时长数组对所述目标语音进行切割,得到所述目标文本中每一文本字符对应的语音的步骤,包括:
根据所述目标文本中每一文本字符在所述索引值数组中对应的索引值,确定每一文本字符在所述时长数组中的K个时长参数,其中K与每一文本字符的索引值数量对应,K为正整数;
根据每一文本字符对应的K个时长参数在所述时长数组中的排列顺序,确定每一文本字符在所述目标语音中的终止时间;...

【专利技术属性】
技术研发人员:黄磊杨春勇靳丁南权圣
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1