文本拼音的转换方法及装置、存储介质及电子设备制造方法及图纸

技术编号:30371589 阅读:18 留言:0更新日期:2021-10-16 17:52
本发明专利技术提供一种文本拼音的转换方法及装置、存储介质及电子设备,该方法包括:当接收到将文本转换为拼音的触发指令时,确定文本对应的音频,并确定音频对应的各个音频特征;将每个音频特征输入预先建立的声学模型,经声学模型处理后,获得每个音频特征对应的概率集合,每个音频特征对应的概率集合中包括该音频特征对应每个音素的概率;依据预设的词典,确定文本对应的各组拼音序列;依据各个音频特征对应的概率集合,确定每组拼音序列对应的概率,将对应概率最大的拼音序列确定为目标拼音序列,并将目标拼音序列确定为该文本对应的文本拼音。应用本发明专利技术的方法,结合音频特征确定拼音,可提高文本拼音与音频的匹配准确度,改善合成器的训练效果。合成器的训练效果。合成器的训练效果。

【技术实现步骤摘要】
文本拼音的转换方法及装置、存储介质及电子设备


[0001]本专利技术涉及自然语言处理
,特别是涉及一种文本拼音的转换方法及装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术的不断发展,人机交互的方式也越来越丰富,人机语音通信便是重要的交互方式之一。在人机语音通信的过程中,机器的发音通常是由语音合成系统,根据给定的文字合成音频实现的。
[0003]在语音合成系统合成语音过程中,通常需将文字转换为拼音,通过合成器,将拼音映射成对应的声学特征。而在合成器的训练过程中,需要将训练文本转换为对应的拼音,结合训练文本对应的音频,训练合成器对于拼音到声学特征的映射。
[0004]目前,将训练文本转换为对应的拼音的过程,是基于词典进行转换的,也就是在词典中为每个文字匹配对应的拼音。而在实际的应用场景下,训练文本对应的音频中,可能存在多音字发音错误或是存在口语化读音等情况,基于目前的训练文本的拼音转换方法,在音频存在发音错误或是口语化读音等情况下,训练文本转换得到的拼音通常难以对应音频中的发音,使得转换得到的拼音与其对应音频的匹配度较差,影响合成器的训练效果。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种文本拼音的转换方法,以解决文本转换得到的拼音与其对应的音频的匹配度较差,导致合成器的训练效果较差的问题。
[0006]本专利技术实施例还提供了一种文本拼音的转换装置,用以保证上述方法实际中的实现及应用。
[0007]为实现上述目的,本专利技术实施例提供如下技术方案:
[0008]一种文本拼音的转换方法,包括:
[0009]当接收到将文本转换为拼音的触发指令时,确定所述文本对应的音频,并确定所述音频对应的各个音频特征;
[0010]将每个所述音频特征输入预先建立的声学模型,经所述声学模型处理后,获得每个所述音频特征对应的概率集合,每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率;
[0011]依据预设的词典,确定所述文本对应的各组拼音序列;
[0012]依据各个所述音频特征对应的所述概率集合,确定每组所述拼音序列对应的概率;
[0013]确定目标拼音序列,所述目标拼音序列为各组所述拼音序列中,对应的概率最大的拼音序列;
[0014]将所述目标拼音序列确定为所述文本对应的文本拼音。
[0015]上述的方法,可选的,所述确定所述音频对应的各个音频特征,包括:
[0016]将所述音频进行分帧处理,获得所述音频对应的各帧音频信号;
[0017]确定每帧所述音频信号对应的频率;
[0018]依据每帧所述音频信号对应的所述频率,确定每帧所述音频信号对应的梅尔频率倒谱系数;
[0019]将每帧所述音频信号对应的所述梅尔频率倒谱系数,确定为所述音频对应的音频特征。
[0020]上述的方法,可选的,所述声学模型的建立过程,包括:
[0021]确定各个样本音频和每个所述样本音频对应的样本文本;
[0022]将每个所述样本音频进行分帧处理,获得每个所述样本音频对应的各帧音频信号;
[0023]对于每个所述样本音频,确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数;
[0024]确定每个所述样本音频对应的音素集合,每个所述样本音频对应的所述音素集合中包括,该样本音频对应的样本文本所对应的各个音素;
[0025]基于每个所述样本音频对应的所述音素集合,确定每个所述样本音频对应的每帧所述音频信号对应的音素;
[0026]依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素,对预先构建的时延神经网络模型进行训练,并将训练完成的时延神经网络模型作为所述声学模型。
[0027]上述的方法,可选的,所述依据预设的词典,确定所述文本对应的各组拼音序列,包括:
[0028]确定所述文本对应的每个文字;
[0029]在所述预设的词典中,确定每个所述文字对应的各个拼音;
[0030]基于各个所述文字对应的各个拼音,确定所述文本对应的各个拼音集合,并确定每个所述拼音集合对应的拼音序列;
[0031]将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。
[0032]上述的方法,可选的,所述依据各个所述音频特征对应的所述概率集合,确定每组所述拼音序列对应的概率,包括:
[0033]基于各个所述音频特征对应的所述概率集合,以及预设的维特比算法,计算每组所述拼音序列对应的路径概率;
[0034]将每组所述拼音序列对应的所述路径概率确定为每组所述拼音序列对应的所述概率。
[0035]上述的方法,可选的,所述确定目标拼音序列,包括:
[0036]将各组所述拼音序列对应的所述概率进行比较,在各组所述拼音序列对应的所述概率中确定目标概率,所述目标概率为各个所述概率中最大的概率;
[0037]在各组所述拼音序列中,确定所述目标概率对应的拼音序列,并将所述目标概率对应的拼音序列确定为所述目标拼音序列。
[0038]一种文本拼音的转换装置,包括:
[0039]第一确定单元,用于当接收到将文本转换为拼音的触发指令时,确定所述文本对
应的音频,并确定所述音频对应的各个音频特征;
[0040]输入单元,用于将每个所述音频特征输入预先建立的声学模型,经所述声学模型处理后,获得每个所述音频特征对应的概率集合,每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率;
[0041]第二确定单元,用于依据预设的词典,确定所述文本对应的各组拼音序列;
[0042]第三确定单元,用于依据各个所述音频特征对应的所述概率集合,确定每组所述拼音序列对应的概率;
[0043]第四确定单元,用于确定目标拼音序列,所述目标拼音序列为各组所述拼音序列中,对应的概率最大的拼音序列;
[0044]第五确定单元,用于将所述目标拼音序列确定为所述文本对应的文本拼音。
[0045]上述的装置,可选的,所述第一确定单元,包括:
[0046]分帧子单元,用于将所述音频进行分帧处理,获得所述音频对应的各帧音频信号;
[0047]第一确定子单元,用于确定每帧所述音频信号对应的频率;
[0048]第二确定子单元,用于依据每帧所述音频信号对应的所述频率,确定每帧所述音频信号对应的梅尔频率倒谱系数;
[0049]第三确定子单元,用于将每帧所述音频信号对应的所述梅尔频率倒谱系数,确定为所述音频对应的音频特征。
[0050]上述的装置,可选的,还包括:
[0051]第六确定单元,用于确定各个样本音频和每个所述样本音频对应的样本文本;
[0052]样本分帧单元,用于将每个所述样本音频进行分帧处理,获得每个所述样本音频对应的各帧音频信号;
[0053]第七确定单元,用于对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本拼音的转换方法,其特征在于,包括:当接收到将文本转换为拼音的触发指令时,确定所述文本对应的音频,并确定所述音频对应的各个音频特征;将每个所述音频特征输入预先建立的声学模型,经所述声学模型处理后,获得每个所述音频特征对应的概率集合,每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率;依据预设的词典,确定所述文本对应的各组拼音序列;依据各个所述音频特征对应的所述概率集合,确定每组所述拼音序列对应的概率;确定目标拼音序列,所述目标拼音序列为各组所述拼音序列中,对应的概率最大的拼音序列;将所述目标拼音序列确定为所述文本对应的文本拼音。2.根据权利要求1所述的方法,其特征在于,所述确定所述音频对应的各个音频特征,包括:将所述音频进行分帧处理,获得所述音频对应的各帧音频信号;确定每帧所述音频信号对应的频率;依据每帧所述音频信号对应的所述频率,确定每帧所述音频信号对应的梅尔频率倒谱系数;将每帧所述音频信号对应的所述梅尔频率倒谱系数,确定为所述音频对应的音频特征。3.根据权利要求1所述的方法,其特征在于,所述声学模型的建立过程,包括:确定各个样本音频和每个所述样本音频对应的样本文本;将每个所述样本音频进行分帧处理,获得每个所述样本音频对应的各帧音频信号;对于每个所述样本音频,确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数;确定每个所述样本音频对应的音素集合,每个所述样本音频对应的所述音素集合中包括,该样本音频对应的样本文本所对应的各个音素;基于每个所述样本音频对应的所述音素集合,确定每个所述样本音频对应的每帧所述音频信号对应的音素;依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素,对预先构建的时延神经网络模型进行训练,并将训练完成的时延神经网络模型作为所述声学模型。4.根据权利要求1所述的方法,其特征在于,所述依据预设的词典,确定所述文本对应的各组拼音序列,包括:确定所述文本对应的每个文字;在所述预设的词典中,确定每个所述文字对应的各个拼音;基于各个所述文字对应的各个拼音,确定所述文本对应的各个拼音集合,并确定每个所述拼音集合对应的拼音序列;将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。5.根据权利要求1所述的方法,其特征在于,所述依据各个所述音频特征对应...

【专利技术属性】
技术研发人员:黄智超王强
申请(专利权)人:北京读我网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1