一种语音合成纠错的方法和装置制造方法及图纸

技术编号:27836674 阅读:11 留言:0更新日期:2021-03-30 12:05
本发明专利技术涉及一种语音合成纠错的方法和装置,该方法包括:获取用户录入的需要纠正读音的目标词条的参考读音;预测所述目标词条的至少一个音素序列;根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;根据声学置信度最高的音素序列纠正所述目标词条的读音。本发明专利技术中,当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成系统合成的读音进行纠正,大大降低了用户纠正语音合成系统多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。的问题。的问题。

【技术实现步骤摘要】
一种语音合成纠错的方法和装置


[0001]本专利技术涉及语音识别领域,具体涉及一种语音合成纠错的方法和装置。

技术介绍

[0002]当前语音合成系统的发音多是根据词典和字表来确定的,当合成语音出现多音字读音错误时,往往需要用户通过更新词典中词条的注音来进行纠正,纠正时需要用户手动标注音标,对用户在语言方面的专业性有一定要求,特别是当纠正的语种为方言时,对专业性要求更高。

技术实现思路

[0003]本专利技术提供一种语音合成纠错的方法和装置,能够解决提高对于语音合成后出现的发音错误予以正音的便捷性的技术问题。
[0004]本专利技术解决上述技术问题的技术方案如下:
[0005]第一方面,本专利技术提供一种语音合成纠错的方法,包括:
[0006]获取用户录入的需要纠正读音的目标词条的参考读音;
[0007]预测所述目标词条的至少一个音素序列;
[0008]根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
[0009]根据声学置信度最高的音素序列纠正所述目标词条的读音。
[0010]本专利技术的有益效果是:当需要纠正词条读音时,用户仅需要读出词条的正确读音,即可根据该正确读音自动给出声学置信度最高的音素序列,从而对语音合成系统合成的读音进行纠正,大大降低了用户纠正语音合成系统多音字读音的成本,解决用户在纠错过程中“会说不会标”的问题。
[0011]进一步,所述预测所述目标词条的至少一个音素序列,具体包括:
[0012]通过内置的字典,获取所述目标词条中每个单字的全部读音;
[0013]将每个单字的全部读音排列组合,形成音素序列。
[0014]上述进一步方案的有益效果是:通过获取多音字的全部读音进行排列组合,自动形成所有可能的音素序列。
[0015]进一步,所述根据所述参考读音,计算每个所述至少一个音素序列的声学置信度,具体包括:
[0016]通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
[0017]根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
[0018]根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
[0019]上述进一步方案的有益效果是:通过将参考读音输入声学模型,进一步计算出了每个音素序列的声学置信度。
[0020]进一步,所述根据声学置信度最高的音素序列纠正所述目标词条的读音,具体包括:
[0021]使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
[0022]响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
[0023]上述进一步方案的有益效果是:便于用户根据听到的合成读音来确认其是否正确,从而完成读音纠正。
[0024]第二方面,本专利技术提供一种语音合成纠错的装置,包括:
[0025]获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;
[0026]预测模块,用于预测所述目标词条的至少一个音素序列;
[0027]计算模块,用于根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
[0028]纠正模块,用于根据声学置信度最高的音素序列纠正所述目标词条的读音。
[0029]进一步,所述预测模块,具体包括:
[0030]获取单元,用于通过内置的字典,获取所述目标词条中每个单字的全部读音;
[0031]形成单元,用于将每个单字的全部读音排列组合,形成音素序列。
[0032]进一步,所述计算模块,具体包括:
[0033]第一确定单元,用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;
[0034]第二确定单元,用于根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;
[0035]第三确定单元,用于根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。
[0036]进一步,所述纠正模块,具体包括:
[0037]合成单元,用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;
[0038]更新单元,用于响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。
[0039]第三方面,本专利技术提供一种终端设备,包括:
[0040]处理器;以及
[0041]存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述的方法。
[0042]第四方面,本专利技术提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述的方法。
附图说明
[0043]图1为本专利技术实施例提供的一种语音合成纠错的方法的流程图;
[0044]图2为本专利技术实施例提供的一种语音合成纠错的方法的业务流程图;
[0045]图3为本专利技术实施例提供的一种语音合成纠错的装置的结构图。
具体实施方式
[0046]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0047]图1为本专利技术实施例提供的一种语音合成纠错的方法的流程图,如图1所示,该方法包括:
[0048]S1、获取用户录入的需要纠正读音的目标词条的参考读音;
[0049]具体的,本专利技术实施例中,如图2所示,用户首先在交互界面输入待合成的文本,语音合成系统根据文本合成对应的语音并播放给用户,由于可能存在多音字,尤其是方言等具有地方特色发音等情形,语音合成系统合成的语音会存在读音错误的情况,当用户发现文本中的某个词条或短语的语音中存在读音错误时,可在交互界面中选中该词条或短语,然后通过麦克风等语音录入设备录入该词条或短语的正确读音作为参考读音。
[0050]S2、预测所述目标词条的至少一个音素序列;
[0051]具体的,本专利技术实施例中,可由语音合成系统通过查询内置的字典,获取目标词条中每个单字的读音,然后将每个单字可能的读音排列组合,从而得到至少一个音素序列。
[0052]S3、根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;
[0053]具体的,如图2所示,该步骤中,采用语音识别引擎根据录入的参考读音,预测出输入的文本序列中每个字(音节)的声学置信度打分。特别的,对于多音字要输出所有可能读音的声学相似度置信度打分。
[0054]S4、根据声学置信度最高的音素序列纠正所述目标词条的读音。
[0055]具体的,如图2所示,语音合成系统输出声学置信度最高的音素序列,合成对应的语音,用户确认发音正确后,即可将词条及其对应的注音更新到语音合成系统的注音词典中,并进行动态加载,完成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成纠错的方法,其特征在于,包括:获取用户录入的需要纠正读音的目标词条的参考读音;预测所述目标词条的至少一个音素序列;根据所述参考读音,计算每个所述至少一个音素序列的声学置信度;根据声学置信度最高的音素序列纠正所述目标词条的读音。2.根据权利要求1所述的语音合成纠错的方法,其特征在于,所述预测所述目标词条的至少一个音素序列,具体包括:通过内置的字典,获取所述目标词条中每个单字的全部读音;将每个单字的全部读音排列组合,形成音素序列。3.根据权利要求1所述的语音合成纠错的方法,其特征在于,所述根据所述参考读音,计算每个所述至少一个音素序列的声学置信度,具体包括:通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率;根据每一帧参考读音的后验概率,确定所述音素序列中每个音素的后验概率;根据所述音素序列中每个音素的后验概率,确定所述音素序列的后验概率,作为所述音素序列的声学置信度。4.根据权利要求1至3任一项所述的语音合成纠错的方法,其特征在于,所述根据声学置信度最高的音素序列纠正所述目标词条的读音,具体包括:使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放;响应于用户确认所述合成读音正确,将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。5.一种语音合成纠错的装置,其特征在于,包括:获取模块,用于获取用户录入的需要纠正读音的目标词条的参考读音;预测模块,用于预测所述目标词条的至少一个音素序列;计算模块,用于根据所述参考读音,计算每个所述...

【专利技术属性】
技术研发人员:王鸣
申请(专利权)人:厦门云知芯智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1