文本拼音的转换方法及装置、存储介质及电子设备制造方法及图纸

技术编号：30371589 阅读：18 留言：0更新日期：2021-10-16 17:52

本发明专利技术提供一种文本拼音的转换方法及装置、存储介质及电子设备，该方法包括：当接收到将文本转换为拼音的触发指令时，确定文本对应的音频，并确定音频对应的各个音频特征；将每个音频特征输入预先建立的声学模型，经声学模型处理后，获得每个音频特征对应的概率集合，每个音频特征对应的概率集合中包括该音频特征对应每个音素的概率；依据预设的词典，确定文本对应的各组拼音序列；依据各个音频特征对应的概率集合，确定每组拼音序列对应的概率，将对应概率最大的拼音序列确定为目标拼音序列，并将目标拼音序列确定为该文本对应的文本拼音。应用本发明专利技术的方法，结合音频特征确定拼音，可提高文本拼音与音频的匹配准确度，改善合成器的训练效果。合成器的训练效果。合成器的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本拼音的转换方法及装置、存储介质及电子设备

[0001]本专利技术涉及自然语言处理
，特别是涉及一种文本拼音的转换方法及装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术的不断发展，人机交互的方式也越来越丰富，人机语音通信便是重要的交互方式之一。在人机语音通信的过程中，机器的发音通常是由语音合成系统，根据给定的文字合成音频实现的。
[0003]在语音合成系统合成语音过程中，通常需将文字转换为拼音，通过合成器，将拼音映射成对应的声学特征。而在合成器的训练过程中，需要将训练文本转换为对应的拼音，结合训练文本对应的音频，训练合成器对于拼音到声学特征的映射。
[0004]目前，将训练文本转换为对应的拼音的过程，是基于词典进行转换的，也就是在词典中为每个文字匹配对应的拼音。而在实际的应用场景下，训练文本对应的音频中，可能存在多音字发音错误或是存在口语化读音等情况，基于目前的训练文本的拼音转换方法，在音频存在发音错误或是口语化读音等情况下，训练文本转换得到的拼音通常难以对应音频中的发音，使得转换得到的拼音与其对应音频的匹配度较差，影响合成器的训练效果。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供了一种文本拼音的转换方法，以解决文本转换得到的拼音与其对应的音频的匹配度较差，导致合成器的训练效果较差的问题。
[0006]本专利技术实施例还提供了一种文本拼音的转换装置，用以保证上述方法实际中的实现及应用。
[0007]为实现上述目的，本专利技术实施例提...

【技术保护点】

【技术特征摘要】
1.一种文本拼音的转换方法，其特征在于，包括：当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；依据预设的词典，确定所述文本对应的各组拼音序列；依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；将所述目标拼音序列确定为所述文本对应的文本拼音。2.根据权利要求1所述的方法，其特征在于，所述确定所述音频对应的各个音频特征，包括：将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；确定每帧所述音频信号对应的频率；依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。3.根据权利要求1所述的方法，其特征在于，所述声学模型的建立过程，包括：确定各个样本音频和每个所述样本音频对应的样本文本；将每个所述样本音频进行分帧处理，获得每个所述样本音频对应的各帧音频信号；对于每个所述样本音频，确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数；确定每个所述样本音频对应的音素集合，每个所述样本音频对应的所述音素集合中包括，该样本音频对应的样本文本所对应的各个音素；基于每个所述样本音频对应的所述音素集合，确定每个所述样本音频对应的每帧所述音频信号对应的音素；依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素，对预先构建的时延神经网络模型进行训练，并将训练完成的时延神经网络模型作为所述声学模型。4.根据权利要求1所述的方法，其特征在于，所述依据预设的词典，确定所述文本对应的各组拼音序列，包括：确定所述文本对应的每个文字；在所述预设的词典中，确定每个所述文字对应的各个拼音；基于各个所述文字对应的各个拼音，确定所述文本对应的各个拼音集合，并确定每个所述拼音集合对应的拼音序列；将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。5.根据权利要求1所述的方法，其特征在于，所述依据各个所述音频特征对应...

【专利技术属性】
技术研发人员：黄智超，王强，
申请(专利权)人：北京读我网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人