一种ARM侧离线语音合成的方法、装置及存储介质制造方法及图纸

技术编号:29963989 阅读:49 留言:0更新日期:2021-09-08 09:28
本发明专利技术提供的一种ARM侧离线语音合成的方法、装置及存储介质,涉及语音合成技术领域。本发明专利技术通过对ARM侧设备部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器来进行离线语音合成,通过对ARM侧设备部署的各生成器进行进行Python toc/c++porting重编译和对Tensorflow平台的32位float型模型浮点参数进行量化压缩,使ARM侧设备能够快速进行离线语音合成且达到节省ARM侧设备所需部署空间、降低ARM侧设备运算要求的目的;通过通过将MelGAN模型作为神经网络声码模型,达到了提升训练速率,在没有额外的蒸馏和感知损失的引入下仍能产生高质量的语音合成模型;将Fastspeech 2模型神经网络声学特征生成模型能达到升模型训练速率和增加了数据的丰富度避免过多的信息损失的目的。避免过多的信息损失的目的。避免过多的信息损失的目的。

【技术实现步骤摘要】
一种ARM侧离线语音合成的方法、装置及存储介质


[0001]本专利技术涉及语音合成
,尤其涉及一种ARM侧离线语音合成的方法、装置及存储介质。

技术介绍

[0002]语音合成(Text To Speech,TTS)即“从文本到语音”,是人机对话的一部分,其目的是让机器能够将文本输出转化为自然的语音输出。
[0003]语音合成同时运用了语言学和机器学习,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS 是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。
[0004]现有的语音合成方法通常是基于前后端的语音合成系统,申请号为:CN201210093481.6 专利技术申请提出了一种语音合成方法及系统,所述方法包括:对输入文本进行文本分析和语言分析,生成包含相应语音单元的前端脚本,获取和校验所述前端脚本,修正所述前端脚本;以及获取所述修正后的前端脚本并合成修正语音,本专利技术能够纠正前端脚本的错误如分词错误和多音字注音错误,从而提高合成语音的易理解性和用户的可接受程度,弥补传统TTS对韵律的预测准确度不足的缺点,提高了合成语音的自然度和表现力。
[0005]但是该专利技术申请提出的语音合成方法及系统依赖于建立前后端网络联系,后端也需要建立强大的服务器集群才能满足实际运用的网络负载量,且在脱离网络时便无法正常使用,其局限性较大,无法运用到无网络或者网络较差环境中。
[0006]申请号为CN201911174434.2的专利技术申请公开了一种分布式语音合成方法,旨在将传统 TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程,为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音,尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。
[0007]该专利技术申请缓解了设备的网络压力,云端服务器的负载也相应降低,能在网络较差环境下进行很好的工作,但是其原理还是基于前后端的语音合成的方法,在无网络的情况下便无法进行很好的运用推广。
[0008]现有阶段,对于语音合成需求最高的场景便是ARM侧设备场景,由于ARM侧设备便于携带,故可以结合TTS组合成智能翻译,智能导航,智能助手,智能变声等功能进行使用,而ARM侧设备很多场景下是无网络跟随的,故基于前后端的语音合成不能完全满足ARM侧设备的运用场景。
[0009]因此,我们有必要提出一种ARM侧离线语音合成的方法来解决上述问题。

技术实现思路

[0010]为解决上述技术问题之一,本专利技术一种ARM侧离线语音合成的方法,运用于具备音频处理、播放和/或传播功能的ARM侧设备中,在ARM侧部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器;采集需要进行离线语音合成的输入文本;将输入文本通过字符

索引字典转化为以索引为序列元素的输入文本序列;通过所述音素序列生成器将输入文本序列转化为所对应音素标签序列;通过音素—时间标签序列生成器将输入音素标签序列转化为对应音素—时间标签序列;通过声学特征生成器将音素—时间标签序列转化成所对应的梅尔频谱图;通过声码器将梅尔频谱图合成并转换成对应的语音数据;所述ARM侧设备对生成的语音数据进行播放和/或传播操作。
[0011]作为更进一步的解决方案,所述音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器通过模型训练端产生;所述模型训练端包括机器学习语言学音素序列模型、神经网络时间标签模型、神经网络声学特征生成模型和神经网络声码模型,并通过语音合成训练数据对模型训练端进行训练。作为更进一步的解决方案,所述语音合成训练数据包括训练用待带合成语音文本、训练用待带合成语音文本序列、训练用音素标签参考序列、训练用音素—时间标签参考序列、训练用梅尔频谱参考图和训练用合成语音参考数据;
[0012]所述机器学习语言学音素序列模型通过训练用待带合成语音文本序列和训练用音素标签参考序列进行文本序列音素标注训练,得到能够根据输入文本序列输出对应音素标签序列的音素序列生成器;
[0013]所述神经网络时间标签模型通过训练用音素—时间标签参考序列和训练用音素标签参考序列进行音素—时间标注训练,得到能够根据输入音素标签序列输出对应音素—时间标签序列的音素—时间标签序列生成器;
[0014]所述神经网络声学特征生成模型通过训练用音素—时间标签参考序列和训练用梅尔频谱参考图进行时频图谱转化训练,得到能够根据输入音素—时间标签序列输出对应的梅尔频谱图的声学特征生成器;
[0015]所述神经网络声码模型通过训练用梅尔频谱参考图和训练用合成语音参考数据进行图谱

语音转化合成训练,得到能过根据输入梅尔频谱图合成并输出对应语音数据的声码器。
[0016]作为更进一步的解决方案,所述语音合成训练数据均为先验数据,并通过以下步骤进行生成:
[0017]所述训练用待带合成语音文本通过人工/机器进行编写生成;
[0018]将所述训练用待带合成语音文本通过字符

索引形式进行序列生成,得到训练用待带合成语音文本序列;
[0019]将所述训练用待带合成语音文本进行人工朗读并音频采集,得到训练用合成语音参考数据;
[0020]对训练用合成语音参考数据进行梅尔频谱图转换,得到训练用梅尔频谱参考图;
[0021]对训练用合成语音参考数据通过人工进行音速级标注,得到训练用音素标签参考
序列;
[0022]将训练用音素标签参考序列与训练用合成语音参考数据进行时间向对齐并标注,得到训练用音素—时间标签参考序列。
[0023]作为更进一步的解决方案,所述音素序列生成器通过机器学习语言学音素序列模型训练迁移产生,所述音素序列生成器包括文字

拼音转换层和拼音

音素转换层;
[0024]所述文字

拼音转换层通过隐马尔可夫模型将输入文本序列转化为输入文本拼音序列;
[0025]所述拼音

音素转换层对拼音序列进行分割和因素转换;通过对文字

拼音转换层提供对的输入文本拼音序列进行声韵母分割得到输入文本拼音分割序列;将输入文本拼音分割序列中每个分割单元通过拼音

因素词典进行查找映射,得到对应的音素标签序列。
[0026]作为更进一步的解决方案,所述声学特征生成器通过神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ARM侧离线语音合成的方法,运用于具备音频处理、播放和/或传播功能的ARM侧设备中,其特征在于,在ARM侧部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器;采集需要进行离线语音合成的输入文本;将输入文本通过字符

索引字典转化为以索引为序列元素的输入文本序列;通过所述音素序列生成器将输入文本序列转化为所对应音素标签序列;通过音素—时间标签序列生成器将输入音素标签序列转化为对应音素—时间标签序列;通过声学特征生成器将音素—时间标签序列转化成所对应的梅尔频谱图;通过声码器将梅尔频谱图合成并转换成对应的语音数据;所述ARM侧设备对生成的语音数据进行播放和/或传播操作。2.根据权利要求1所述的一种ARM侧离线语音合成的方法,其特征在于,所述音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器通过模型训练端产生;所述模型训练端包括机器学习语言学音素序列模型、神经网络时间标签模型、神经网络声学特征生成模型和神经网络声码模型,并通过语音合成训练数据对模型训练端进行训练。3.根据权利要求2所述的一种ARM侧离线语音合成的方法,其特征在于,所述语音合成训练数据包括训练用待带合成语音文本、训练用待带合成语音文本序列、训练用音素标签参考序列、训练用音素—时间标签参考序列、训练用梅尔频谱参考图和训练用合成语音参考数据;所述机器学习语言学音素序列模型通过训练用待带合成语音文本序列和训练用音素标签参考序列进行文本序列音素标注训练,得到能够根据输入文本序列输出对应音素标签序列的音素序列生成器;所述神经网络时间标签模型通过训练用音素—时间标签参考序列和训练用音素标签参考序列进行音素—时间标注训练,得到能够根据输入音素标签序列输出对应音素—时间标签序列的音素—时间标签序列生成器;所述神经网络声学特征生成模型通过训练用音素—时间标签参考序列和训练用梅尔频谱参考图进行时频图谱转化训练,得到能够根据输入音素—时间标签序列输出对应的梅尔频谱图的声学特征生成器;所述神经网络声码模型通过训练用梅尔频谱参考图和训练用合成语音参考数据进行图谱

语音转化合成训练,得到能过根据输入梅尔频谱图合成并输出对应语音数据的声码器。4.根据权利要求3所述的一种ARM侧离线语音合成的方法,其特征在于,所述语音合成训练数据均为先验数据,并通过以下步骤进行生成:所述训练用待带合成语音文本通过人工/机器进行编写生成;将所述训练用待带合成语音文本通过字符

索引形式进行序列生成,得到训练用待带合成语音文本序列;将所述训练用待带合成语音文本进行人工朗读并音频采集,得到训练用合成语音参考数据;对训练用合成语音参考数据进行梅尔频谱图转换,得到训练用梅尔频谱参考图;对训练用合成语音参考数据通过人工进行音速级标注,得到训练用音素标签参考序列;将训练用音素标签参考序列与训练用合成语音参考数据进行时间向对齐并标注,得到
训练用音素—时间标签参考序列。5.根据权利要求4所述的一种ARM侧离线语音合成的方法,其特征在于,所述音素序列生成器通过机器学习语言学音素序列模型训练迁移产生,所述音素序列生成器包括文字
...

【专利技术属性】
技术研发人员:张毅胡奎姜黎
申请(专利权)人:杭州芯声智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1