【技术实现步骤摘要】
一种基于嵌入式系统的端到端语音合成网络
[0001]本专利技术属于嵌入式计算机
,涉及一种基于嵌入式系统的端到端模型语音合成声码器。
技术介绍
[0002]随着与机器的语音交互越来越多,语音合成技术在现实中的应用越来越多,像AI合成主播,以及地铁广播等。但是,语音的合成质量或微小的变化都会对客户体验和客户的喜好产生很大的影响。因此,高质量的实时语音合成仍然是一个具有挑战性的任务。
[0003]目前,先进的语音合成模型有统计参数神经网络语音合成模型与端到端语音合成模型。文本到语音的合成通常分为两个部分。第一步是将文本转换为时间对齐的特征,比如mel
‑
光谱图。第二个模型是将这些时间对齐的特征转换为音频样本。第二种模型,有时称为声码器,主要影响质量,并决定速度。现在的语音合成多是在云端实现,但是,语音合成也迫切需要在离线端实现。
[0004]语音合成技术主要由编解码和声码器部分组成,编解码有fastspeech,tacotron等模型,声码器主要有wavernn,wavenet,waveg ...
【技术保护点】
【技术特征摘要】
1.一种基于嵌入式系统的端到端语音合成网络,其特征在于,该端到端语音合成网络将文字文件转换到语音文件,步骤如下:首先,对现有的Waveglow声码器模型进行结构化稀疏化处理,在WaveGlow声码器模型中,将WN模型的扩展卷积部分和膨胀卷积部分用CNN进行替换;其次,去掉WN模型中多余的残差连接和跳跃连接,结构化稀疏化处理后的模型称为Fast Waveglow模型;然后,对端到端语音合成网络的编码端Fastspeech模型前馈一个韵律编码器,得到新的Rhythm Fastspeech网络;其中,韵律编码器由Prenet模块和CBHG模块组成;Prenet模块由两层全连接层组成,CBHG模块输出一个隐藏状态序列;基于该编码端Fastspeec...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。