一种基于嵌入式系统的端到端语音合成网络技术方案

技术编号:31024770 阅读:15 留言:0更新日期:2021-11-30 03:23
本发明专利技术属于嵌入式计算机技术领域,提供一种基于嵌入式系统的端到端语音合成网络,文字通过编解码,生成梅尔谱图,然后将图片通过声码器转换成语音文件。同时,在保证语音质量没有显著衰减的情况下,提高推理速度,做到实时,最后部署在嵌入式平台上面。采用该端到端网络,使用最新神经网络的方法,在减少参数和模型计算量的情况下,能够将推理速度大幅提高,并且通过前馈一个韵律编码器,达到韵律可调的作用。将文字通过前端编解码部分,生成梅尔谱图,之后通过声码器转为语音文件。即端到端的方法。该方法能够高效实时的合成音频,从而部署在地铁嵌入式平台上面。署在地铁嵌入式平台上面。署在地铁嵌入式平台上面。

【技术实现步骤摘要】
一种基于嵌入式系统的端到端语音合成网络


[0001]本专利技术属于嵌入式计算机
,涉及一种基于嵌入式系统的端到端模型语音合成声码器。

技术介绍

[0002]随着与机器的语音交互越来越多,语音合成技术在现实中的应用越来越多,像AI合成主播,以及地铁广播等。但是,语音的合成质量或微小的变化都会对客户体验和客户的喜好产生很大的影响。因此,高质量的实时语音合成仍然是一个具有挑战性的任务。
[0003]目前,先进的语音合成模型有统计参数神经网络语音合成模型与端到端语音合成模型。文本到语音的合成通常分为两个部分。第一步是将文本转换为时间对齐的特征,比如mel

光谱图。第二个模型是将这些时间对齐的特征转换为音频样本。第二种模型,有时称为声码器,主要影响质量,并决定速度。现在的语音合成多是在云端实现,但是,语音合成也迫切需要在离线端实现。
[0004]语音合成技术主要由编解码和声码器部分组成,编解码有fastspeech,tacotron等模型,声码器主要有wavernn,wavenet,waveglow模型。编解码的韵律调节方法有vae,gst等方法。提高声码器的推理速度,主要有稀疏化等方法。
[0005]本专利所述端到端语音合成网络能够将文本信息通过编解码结构后,再通过声码器实时地合成音频,从而易于布置在地铁嵌入式平台上,使地铁紧急广播成为可能。
[0006]中国专利技术专利申请,公开号CN1924994A,公开了一种嵌入式语音合成方法及系统,将系统接收到的或输入的文字转换成语音输出。首先创建基于声韵母的语音库,然后基于声韵母样本的上下文属性以及声学特征,对语音库进行压缩,得到最终语音库。但是该专利技术需要建立声韵母的语音库,比较繁琐。
[0007]中国专利技术专利申请,公开号NCMMSC2007,公开了一种实用的嵌入式语音合成方法,在该方法中,将TTS系统的后端处理分为两个阶段:参数拼接和波形合成,并分别由MCU和DSP来承担。在此基础上,提出了一种新的拼接方法。但是,该专利技术所采用的拼接法很难获得较高的质量,相比目前广泛应用的神经网络方法,而且在推理的速度方面也没有做到实时。

技术实现思路

[0008]本专利技术的主要目的是提供一种并行的语音合成网络。文字通过编解码,生成梅尔谱图,然后将图片通过声码器转换成语音文件。同时,在保证语音质量没有显著衰减的情况下,提高推理速度,做到实时,最后部署在嵌入式平台上面。
[0009]本专利技术的技术方案:
[0010]一种基于嵌入式系统的端到端语音合成网络,该端到端语音合成网络将文字文件转换到语音文件,步骤如下:
[0011]首先,对端到端语音合成网络的编码端Fastspeech模型前馈一个韵律编码器,得到新的Rhythm Fastspeech网络;其中,韵律编码器由Prenet模块和CBHG模块组成;Prenet
模块由两层全连接层组成,CBHG模块输出一个隐藏状态序列;将输入频谱图中每个音素和韵律符合转为连续向量,通过Prenet模块传递。通过两个独立的全连接层和RELU激活函数来生成潜在变量。然后通过CBHG模块,输出一段隐藏状态序列,将序列转换为固定长度的上下文向量,提取更高级别特征,最后通过线性层输出。基于该编码端Fastspeech模型构建编解码前端网络,以文字作为输入,输出梅尔谱图;
[0012]然后,对现有的Waveglow声码器模型进行结构化稀疏化处理,在WaveGlow声码器模型中,将WN模型的扩展卷积部分和膨胀卷积部分用CNN进行替换;其次,去掉WN模型中多余的残差连接和跳跃连接,结构化稀疏化处理后的模型称为Fast Waveglow模型;因为膨胀卷积和扩展卷积是因果卷积,它是串行的,运算时间比较慢,所以用CNN来替换。之后,去掉WN部分多余的残差连接和跳跃连接。因为模型需要重复计算12次,每次间隔几个卷积层,都要进行一次求和运算,再作为输入,进行下次的卷积运算,去掉残差连接和跳跃连接可以减少运算次数。Fast Waveglow模型在保证网络预测性能不衰减的前提下,具有更少模型参数和更快在线预测速度。
[0013]最后,将新的Rhythm Fastspeech网络和经过稀疏化处理后的Fast Waveg

low模型合并为一个单一的网络,同时进行训练,即end

to

end方法;同时具有模型小,预测准确率高,预测速度快的优点。首先,先将训练好的权重模型提取出来,将该权重模型转换成ONNX模型,然后再将ONNX模型转成RKNN形式;在模型推理的过程中,对于不支持的算子用softmax函数进行替换;其次,将模型封装到推理函数中,最后在嵌入式平台上移植推理函数,运行推理函数,得到最终的输出结果。在保证质量没有明显衰减的情况下,可以将语音做到实时输出。
[0014]本专利技术的有益效果:采用该端到端网络,使用最新神经网络的方法,在减少参数和模型计算量的情况下,能够将推理速度大幅提高,并且通过前馈一个韵律编码器,达到韵律可调的作用。将文字通过前端编解码部分,生成梅尔谱图,之后通过声码器转为语音文件。即端到端的方法。该方法能够高效实时的合成音频,从而部署在地铁嵌入式平台上面。
附图说明
[0015]图1为现有技术中的语音合成系统的结构图;
[0016]图2为本专利技术中的嵌入式平台语音合成系统的结构图;
具体实施方式
[0017]以下结合附图和技术方案,进一步说明本专利技术的具体实施方式。
[0018]结合图1,合成语音,主要包括以下几个步骤:
[0019]步骤1:将文字通过编解码结构,转换成梅尔谱图。
[0020]步骤2:输入连续序列,先经过fastspeech中的K个1

D卷积,这些卷积核可以对当前以及上下文信息有效建模。卷积输入堆叠一起,沿着时间轴最大池化以增加当前信息不变性,然后输入到几个固定宽带的1

D卷积,将输出增加到起始的输入序列。所有卷积都采用Batch Normalization。输入多层的highway网络,用以提取更高级别的特征。最后在顶部加入双向GRU,用于提取序列的上下文特征。频谱图通过韵律编码器的2层全连接和线性激活函数,生成潜在变量的均值。然后,通过16个不同宽度的1D卷积组成的卷积层,提取序列
上下文信息。之后通过池化层,保留特征不变,通过线性层输出。经由highway网络,提取更高级别特征。最后,通过双向RNN提取序列上下文信息。在预测时,特征频谱图与文字通过编码端和解码端的输出目标帧进行叠加。
[0021]步骤3:梅尔谱图通过声码器,合成出语音文件。我们取8组音频样本作为向量,称为“挤压”操作,将其作为输入向量,输入到声码器模型中。然后,我们通过几个“流程步骤”处理这些向量。这里的每个流动步骤由一个可逆的1
×
1卷积和一个仿射耦合层组成。可逆神经网络通常使用耦合层构建。在本专利中,使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于嵌入式系统的端到端语音合成网络,其特征在于,该端到端语音合成网络将文字文件转换到语音文件,步骤如下:首先,对现有的Waveglow声码器模型进行结构化稀疏化处理,在WaveGlow声码器模型中,将WN模型的扩展卷积部分和膨胀卷积部分用CNN进行替换;其次,去掉WN模型中多余的残差连接和跳跃连接,结构化稀疏化处理后的模型称为Fast Waveglow模型;然后,对端到端语音合成网络的编码端Fastspeech模型前馈一个韵律编码器,得到新的Rhythm Fastspeech网络;其中,韵律编码器由Prenet模块和CBHG模块组成;Prenet模块由两层全连接层组成,CBHG模块输出一个隐藏状态序列;基于该编码端Fastspeec...

【专利技术属性】
技术研发人员:李相
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1