一种基于FPGA的藏语语音合成装置制造方法及图纸

技术编号:16236273 阅读:33 留言:0更新日期:2017-09-19 16:17
本实用新型专利技术公开了一种基于FPGA的藏语语音合成装置,包括FPGA芯片,文本输入设备,FLASH存储器,SDRAM存储器,音频输出设备;所述FPGA芯片包括Nios Ⅱ软核处理器、Avalon总线、输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器以及用于语音合成的协处理器;所述Nios Ⅱ软核处理器通过所述Avalon总线分别与输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器和协处理器相连;所述文本输入设备与文本输入控制器相连,所述FLASH存储器与FLASH存储器接口相连,SDRAM存储器与SDRAM控制器相连,音频输出设备与音频控制器相连,实现藏语文本到藏语语音的转换。

A Tibetan speech synthesis device based on FPGA

The utility model discloses a Tibetan speech synthesis device based on FPGA, including FPGA chip, text input device, FLASH memory, SDRAM memory, audio output device; the FPGA chip includes Nios II soft core processor, Avalon bus, the input equipment controller, FLASH memory interface, SDRAM controller, PLL, PLL UART, controller and Co processor for speech synthesis; the Nios processor through the Avalon bus are respectively connected with the input device controller, FLASH memory interface, SDRAM controller, PLL, PLL, UART controller and processor connected; the text input and text input device connected to the controller, the FLASH memory connected to the FLASH memory interface and SDRAM memory connected with the SDRAM controller, and the audio output device The audio controller is connected to realize the conversion from Tibetan text to Tibetan speech.

【技术实现步骤摘要】
一种基于FPGA的藏语语音合成装置
本技术涉及到藏语文本到藏语语音转换的语音合成
,具体涉及一种基于FPGA的藏语语音合成装置。
技术介绍
随着现代社会信息技术的高速发展,高度智能的人机交互、人机互动技术,逐渐受到研究人员的日益重视。人们迫切希望同机器的交流方式,不仅仅停留在依靠于传统的键盘、鼠标以及显示器,完成指令的下发及思想的表达。而是有一种类似于人与人之间交流的方式进行交互,以达到“察言观色”的效果,进而表达出真实的意图。随着语音合成技术的成熟,其各种应用层出不穷,嵌入式语音合成的开发也成为争相发展的热门,TTS(TextToSpeech)系统可以应用于计算机交互输出、呼叫中心、双语手机、PDA等各种设备上。现在比较流行的语音合成技术主要有基于大语料库的语音拼接合成技术,此方法因为是直接从语料库中挑选出语音片段进行拼接,所以合成的语音音质较好。但是此方法需要一个大的语料库,制作语料库不仅费时费力,而且占用大量的存储空间。由于嵌入式设备,对存储空间有一定的限制,所以此方法就不利于应用在嵌入式设备中。另一种现在流行的语音合成方法,是基于HMM(HiddenMarkovModels)的统计参数语音合成技术。此方法建立的语音合成系统特点:系统构建需要的数据量少,存储尺寸小,合成时计算量少;并且合成的语音平滑流畅,鲁棒性高,具有较好的音质和可懂度。藏族作为我们中国的少数民族,有其悠久的历史,它也有自己独特的语言体系-藏语。藏族作为中国的少数民族之一,主要是分布在西藏自治区和青海、甘肃、四川、云南等省区,人口约640万余人。而现在的研究主要集中在汉语的语音合成和应用中,对于藏语的语音合成装置目前还没有实现。
技术实现思路
针对上述存在的技术问题,本技术提供了一种基于FPGA的藏语语音合成装置,在FPGA上实现藏语语音嵌入式的装置,此装置不仅可以合成流畅的藏语,同时方便携带。一种基于FPGA的藏语语音合成装置,包括FPGA芯片,文本输入设备,FLASH存储器,SDRAM存储器,音频输出设备;所述FPGA芯片包括NiosⅡ软核处理器、Avalon总线、输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器以及用于语音合成的协处理器;所述NiosⅡ软核处理器通过所述Avalon总线分别与输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器和协处理器相连;所述文本输入装置与文本输入控制器相连,所述FLASH存储器与FLASH存储器接口相连,SDRAM存储器与SDRAM控制器相连,音频输出设备与音频控制器相连;所述协处理器包括浮点单元、语音参数生成器、语音合成生成器和内部存储器;所述浮点单元通过设置浮点单元总线与语音参数生成器和语音合成生成器相连,所述内部存储器通过设置内部存储器总线与语音参数生成器和语音合成生成器相连;所述内部存储器、语音参数生成器和语音合成生成器分别与Avalon总线相连。进一步的,所述音频输出设备连接有外置的音箱。本技术以FPGA为开发平台,利用NiosII进行软核处理器的设计,建立各个功能算法的硬件平台,最终将语音合成算法移植到FPGA硬件平台中,从而达到实现藏语语音合成的功能;FPGA平台内部处理结构,其中协处理器集成到系统中以便加速系统的性能,NiosII处理器是系统的主要处理器,SDRAM存储器用于存储系统的指令和数据,PLL锁相环用于设置系统的时钟频率。UART端口用于调试系统。基于HMM的统计参数语音合成技术下,利用Nios软核作为处理器,在嵌入式设备FPGA开发平台上实现藏语语音的合成。此装置突破了嵌入式设备存储空间的限制,不仅可以合成流畅的藏语语音,同时实现了藏语语音合成的便携化和仪器化。尤其用Nios软核的形式作为处理器,其灵活的设计方式,使系统的可裁剪,可扩充,可升级的效果更易实现。附图说明为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为一种基于FPGA的藏语语音合成装置的模块示意图;图2为基于HMM藏语语音合成系统的流程图;图3为藏语文本分析流程图;图4为语音合成生成器流程图。具体实施方式本技术提供了一种基于FPGA的藏语语音合成装置,在FPGA上实现藏语语音嵌入式的装置,此装置不仅可以合成流畅的藏语,同时方便携带。下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。参见图1所示,本技术公开了一种基于FPGA的藏语语音合成装置,包括FPGA芯片,文本输入设备,FLASH存储器,SDRAM存储器,音频输出设备;所述FPGA芯片包括NiosⅡ软核处理器、Avalon总线、输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器以及用于语音合成的协处理器;所述NiosⅡ软核处理器通过所述Avalon总线分别与输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器和协处理器相连;所述文本输入装置与文本输入控制器相连,所述FLASH存储器与FLASH存储器接口相连,SDRAM存储器与SDRAM控制器相连,音频输出设备与音频控制器相连;所述协处理器包括浮点单元、语音参数生成器、语音合成生成器和内部存储器;所述浮点单元通过设置浮点单元总线与语音参数生成器和语音合成生成器相连,所述内部存储器通过设置内部存储器总线与语音参数生成器和语音合成生成器相连;所述内部存储器、语音参数生成器和语音合成生成器分别与Avalon总线相连。在本实施例中,所述音频输出设备连接有外置的音箱。在本实施例中,所述音频输出设备采用音频芯片WM8731。为了进一步说明本藏语合成装置的工作原理,以下将对基于本藏语合成装置的藏语文本到藏语语音转换流程进行描述,需要说明的是,以下描述中涉及软件部分是本领域技术人员根据需要进行设计,并不用于限制本技术。根据以上提出的藏语合成装置设计一个训练良好的上下文相关的隐马尔可夫模型数据库。由于HMM数据库保存在文件中,使用闪存存储隐马尔可夫模型的数据库,以便我们可以使用只读的压缩文件系统(支持Altera)从HMM数据库中加载数据。参见图2所示,存储于FLASH中的文本分析模块和HMM模型库,内部存储器中的语音参数生成器和MLSA语音合成器。具体的流程如下:首先文本通过文本输入设备送入到FPGA开发平台,然后在NiosII软核处理器控制下经过存储于FLASH中的文本分析程序,得到上下文相关文本标注,再通过决策树从HMM模型库中得到上下文相关的HMM数据序列。然后把得到的上下文相关的HMM数据序列通过Avalon总线送入到内部存储器中。在内部存储器中HMM本文档来自技高网
...
一种基于FPGA的藏语语音合成装置

【技术保护点】
一种基于FPGA的藏语语音合成装置,其特征在于,包括FPGA芯片,文本输入设备,FLASH存储器,SDRAM存储器,音频输出设备;所述FPGA芯片包括NiosⅡ软核处理器、Avalon总线、输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器以及用于语音合成的协处理器;所述NiosⅡ软核处理器通过所述Avalon总线分别与输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器和协处理器相连;所述文本输入设备与文本输入控制器相连,所述FLASH存储器与FLASH存储器接口相连,SDRAM存储器与SDRAM控制器相连,音频输出设备与音频控制器相连;所述协处理器包括浮点单元、语音参数生成器、语音合成生成器和内部存储器;所述浮点单元通过设置浮点单元总线与语音参数生成器和语音合成生成器相连,所述内部存储器通过设置内部存储器总线与语音参数生成器和语音合成生成器相连;所述内部存储器、语音参数生成器和语音合成生成器分别与Avalon总线相连。

【技术特征摘要】
1.一种基于FPGA的藏语语音合成装置,其特征在于,包括FPGA芯片,文本输入设备,FLASH存储器,SDRAM存储器,音频输出设备;所述FPGA芯片包括NiosⅡ软核处理器、Avalon总线、输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器以及用于语音合成的协处理器;所述NiosⅡ软核处理器通过所述Avalon总线分别与输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器和协处理器相连;所述文本输入设备与文本输入控制器...

【专利技术属性】
技术研发人员:杨鸿武张帅甘振业
申请(专利权)人:西北师范大学
类型:新型
国别省市:甘肃,62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1