一种ARM侧离线语音合成的方法、装置及存储介质制造方法及图纸

技术编号：29963989 阅读：49 留言：0更新日期：2021-09-08 09:28

本发明专利技术提供的一种ARM侧离线语音合成的方法、装置及存储介质，涉及语音合成技术领域。本发明专利技术通过对ARM侧设备部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器来进行离线语音合成，通过对ARM侧设备部署的各生成器进行进行Python toc/c++porting重编译和对Tensorflow平台的32位float型模型浮点参数进行量化压缩，使ARM侧设备能够快速进行离线语音合成且达到节省ARM侧设备所需部署空间、降低ARM侧设备运算要求的目的；通过通过将MelGAN模型作为神经网络声码模型，达到了提升训练速率，在没有额外的蒸馏和感知损失的引入下仍能产生高质量的语音合成模型；将Fastspeech 2模型神经网络声学特征生成模型能达到升模型训练速率和增加了数据的丰富度避免过多的信息损失的目的。避免过多的信息损失的目的。避免过多的信息损失的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种ARM侧离线语音合成的方法、装置及存储介质

[0001]本专利技术涉及语音合成
，尤其涉及一种ARM侧离线语音合成的方法、装置及存储介质。

技术介绍

[0002]语音合成(Text To Speech,TTS)即“从文本到语音”，是人机对话的一部分，其目的是让机器能够将文本输出转化为自然的语音输出。
[0003]语音合成同时运用了语言学和机器学习，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS 是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。TTS应用包括语音驱动的邮件以及声音敏感系统，并常与声音识别程序一起使用。
[0004]现有的语音合成方法通常是基于前后端的语音合成系统，申请号为：CN201210093481.6 专利技术申请提出了一种语音合成方法及系统，所述方法包括：对输入文本进行文本分析和语言分析，生成包含相应语音单元的前端脚本，获取和校验所述前端脚本，修正所述前端脚本；以及获取所述修正后的前端脚本并合成修正语音，本专利技术能够纠正前端脚本的错误如分词错误和多音字注音错误，从而提高合成语音的易理解性和用户的可接受程度，弥补传统TTS对韵律的预测准确度不足的缺点，提高了合成语音的自然度和表现力。
[0005]但是...

【技术保护点】

【技术特征摘要】
1.一种ARM侧离线语音合成的方法，运用于具备音频处理、播放和/或传播功能的ARM侧设备中，其特征在于，在ARM侧部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器；采集需要进行离线语音合成的输入文本；将输入文本通过字符
‑
索引字典转化为以索引为序列元素的输入文本序列；通过所述音素序列生成器将输入文本序列转化为所对应音素标签序列；通过音素—时间标签序列生成器将输入音素标签序列转化为对应音素—时间标签序列；通过声学特征生成器将音素—时间标签序列转化成所对应的梅尔频谱图；通过声码器将梅尔频谱图合成并转换成对应的语音数据；所述ARM侧设备对生成的语音数据进行播放和/或传播操作。2.根据权利要求1所述的一种ARM侧离线语音合成的方法，其特征在于，所述音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器通过模型训练端产生；所述模型训练端包括机器学习语言学音素序列模型、神经网络时间标签模型、神经网络声学特征生成模型和神经网络声码模型，并通过语音合成训练数据对模型训练端进行训练。3.根据权利要求2所述的一种ARM侧离线语音合成的方法，其特征在于，所述语音合成训练数据包括训练用待带合成语音文本、训练用待带合成语音文本序列、训练用音素标签参考序列、训练用音素—时间标签参考序列、训练用梅尔频谱参考图和训练用合成语音参考数据；所述机器学习语言学音素序列模型通过训练用待带合成语音文本序列和训练用音素标签参考序列进行文本序列音素标注训练，得到能够根据输入文本序列输出对应音素标签序列的音素序列生成器；所述神经网络时间标签模型通过训练用音素—时间标签参考序列和训练用音素标签参考序列进行音素—时间标注训练，得到能够根据输入音素标签序列输出对应音素—时间标签序列的音素—时间标签序列生成器；所述神经网络声学特征生成模型通过训练用音素—时间标签参考序列和训练用梅尔频谱参考图进行时频图谱转化训练，得到能够根据输入音素—时间标签序列输出对应的梅尔频谱图的声学特征生成器；所述神经网络声码模型通过训练用梅尔频谱参考图和训练用合成语音参考数据进行图谱
‑
语音转化合成训练，得到能过根据输入梅尔频谱图合成并输出对应语音数据的声码器。4.根据权利要求3所述的一种ARM侧离线语音合成的方法，其特征在于，所述语音合成训练数据均为先验数据，并通过以下步骤进行生成：所述训练用待带合成语音文本通过人工/机器进行编写生成；将所述训练用待带合成语音文本通过字符
‑
索引形式进行序列生成，得到训练用待带合成语音文本序列；将所述训练用待带合成语音文本进行人工朗读并音频采集，得到训练用合成语音参考数据；对训练用合成语音参考数据进行梅尔频谱图转换，得到训练用梅尔频谱参考图；对训练用合成语音参考数据通过人工进行音速级标注，得到训练用音素标签参考序列；将训练用音素标签参考序列与训练用合成语音参考数据进行时间向对齐并标注，得到
训练用音素—时间标签参考序列。5.根据权利要求4所述的一种ARM侧离线语音合成的方法，其特征在于，所述音素序列生成器通过机器学习语言学音素序列模型训练迁移产生，所述音素序列生成器包括文字
...

【专利技术属性】
技术研发人员：张毅，胡奎，姜黎，
申请(专利权)人：杭州芯声智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人