一种语音合成播报方法及装置制造方法及图纸

技术编号：28476522 阅读：22 留言：0更新日期：2021-05-15 21:45

本发明专利技术公开了一种语音合成播报方法及装置,语音合成播报方法包括如下步骤：S1.对待合成文本进行文本处理，获取文本对应的语言特征；S2.调用存储的神经网络模型，根据所述的神经网络模型预测文本信息对应的声学参数；S3.将所述声学参数进行语音合成，输出合成的语音文件；S4.播放所述合成的音频文件。采用本发明专利技术所述的语音合成播报方法，通过对待合成文本进行处理，进行声学模型预测和语音合成，播报音具有高自然度、清晰、停顿合理自然、具备不同音色等效果，极大的提高了用户的体验感。极大的提高了用户的体验感。极大的提高了用户的体验感。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成播报方法及装置

[0001]本专利技术属于语音识别
，涉及语音合成技术，具体涉及一种语音合成播报方法及装置。

技术介绍

[0002]语音合成技术，也被称为文语转换技术(Text To Speech，TTS)，其目标是让机器通过识别和理解，把文本信息转换成语音输出，从而让机器能够说话，是未来人机交互的重要分支。
[0003]语音合成技术应用广泛，比如网页内容朗读、小说有声阅读、电子邮件的阅读、车载语音导航播报、智能家居产品播报等。以语音导航为例，通过语音合成，手机、平板电脑等用户终端能够将用户需要的行驶路线进行实时播报，给用户带来极大的方便。
[0004]在对现有技术的研究和实践过程中，发现现有语音合成技术存在如下不足之处：1. 合成的音频，播报自然度较低，韵律节奏不明显；2. 合成声音较单一，用户体验感不强；3. 语音合成，通过访问服务器，当访问量过大或网络不流畅时，难以满足客户快速合成并进行播报需求。

技术实现思路

[0005]为克服现有技术存在的缺陷，本专利技术公开了一种...

【技术保护点】

【技术特征摘要】
1.一种语音合成播报方法，其特征在于,包括如下步骤：S1. 对待合成文本进行文本处理，获取文本对应的语言特征；S2. 调用存储的神经网络模型，根据所述的神经网络模型预测文本信息对应的声学参数；S3. 将所述声学参数进行语音合成，输出合成的语音文件；S4. 播放所述合成的音频文件。2.如权利要求1所述的语音合成播报方法，其特征在于，所述S1步骤中，文本处理具体包括以下步骤：S11. 对待合成文本，过滤掉其中的特殊符号；S12. 对待合成文本进行阿拉伯数字处理、发音符号处理、英文字符处理；S13. 经过处理后的待合成文本，进行断句处理；S14. 对断句后的文本进行韵律标注；S15. 进行拼音标注。3.如权利要求2所述的语音合成播报方法，其特征在于，所述步骤S12具体为：当文本中包含有阿拉伯数字时，进行数字转换；当文本中包含有发音符号时，分别处理成对应的汉字表述；当文本中包含英文时，转换成近似发音的中文。4.如权利要求2所述的语音合成播报方法，其特征在于，所述步骤S14中韵律标注具体为：采用不同韵律符号分别将文本拆分为韵律词、韵律短语、韵律短句的组合，采用不同韵律符号分别对韵律词、韵律短语、韵律短句和韵律停止进行标记，且不同韵律符号表示的停顿时间长短不同。5.如权利要求1所述的语音合成播报方法，其特征在于，所述步骤S2具体为：所述神经...

【专利技术属性】
技术研发人员：潘帅嘉，许兵，
申请(专利权)人：成都启英泰伦科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人