一种基于嵌入式系统的端到端语音合成网络技术方案

技术编号：31024770 阅读：15 留言：0更新日期：2021-11-30 03:23

本发明专利技术属于嵌入式计算机技术领域，提供一种基于嵌入式系统的端到端语音合成网络，文字通过编解码，生成梅尔谱图，然后将图片通过声码器转换成语音文件。同时，在保证语音质量没有显著衰减的情况下，提高推理速度，做到实时，最后部署在嵌入式平台上面。采用该端到端网络，使用最新神经网络的方法，在减少参数和模型计算量的情况下，能够将推理速度大幅提高，并且通过前馈一个韵律编码器，达到韵律可调的作用。将文字通过前端编解码部分，生成梅尔谱图，之后通过声码器转为语音文件。即端到端的方法。该方法能够高效实时的合成音频，从而部署在地铁嵌入式平台上面。署在地铁嵌入式平台上面。署在地铁嵌入式平台上面。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于嵌入式系统的端到端语音合成网络

[0001]本专利技术属于嵌入式计算机
，涉及一种基于嵌入式系统的端到端模型语音合成声码器。

技术介绍

[0002]随着与机器的语音交互越来越多，语音合成技术在现实中的应用越来越多，像AI合成主播，以及地铁广播等。但是，语音的合成质量或微小的变化都会对客户体验和客户的喜好产生很大的影响。因此，高质量的实时语音合成仍然是一个具有挑战性的任务。
[0003]目前，先进的语音合成模型有统计参数神经网络语音合成模型与端到端语音合成模型。文本到语音的合成通常分为两个部分。第一步是将文本转换为时间对齐的特征，比如mel
‑
光谱图。第二个模型是将这些时间对齐的特征转换为音频样本。第二种模型，有时称为声码器，主要影响质量，并决定速度。现在的语音合成多是在云端实现，但是，语音合成也迫切需要在离线端实现。
[0004]语音合成技术主要由编解码和声码器部分组成，编解码有fastspeech,tacotron等模型，声码器主要有wavernn,wavenet，waveglow模型。编解码的韵律调节方法有vae，gst等方法。提高声码器的推理速度，主要有稀疏化等方法。
[0005]本专利所述端到端语音合成网络能够将文本信息通过编解码结构后，再通过声码器实时地合成音频，从而易于布置在地铁嵌入式平台上，使地铁紧急广播成为可能。
[0006]中国专利技术专利申请，公开号CN1924994A，公开了一种嵌入式语音合成方法及系统，将系统接收到的或输入的文字转...

【技术保护点】

【技术特征摘要】
1.一种基于嵌入式系统的端到端语音合成网络，其特征在于，该端到端语音合成网络将文字文件转换到语音文件，步骤如下：首先，对现有的Waveglow声码器模型进行结构化稀疏化处理，在WaveGlow声码器模型中，将WN模型的扩展卷积部分和膨胀卷积部分用CNN进行替换；其次，去掉WN模型中多余的残差连接和跳跃连接，结构化稀疏化处理后的模型称为Fast Waveglow模型；然后，对端到端语音合成网络的编码端Fastspeech模型前馈一个韵律编码器，得到新的Rhythm Fastspeech网络；其中，韵律编码器由Prenet模块和CBHG模块组成；Prenet模块由两层全连接层组成，CBHG模块输出一个隐藏状态序列；基于该编码端Fastspeec...

【专利技术属性】
技术研发人员：李相，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人