可加载个性化特征模型的语音识别系统技术方案

技术编号:13715750 阅读:111 留言:0更新日期:2016-09-17 04:00
本实用新型专利技术提供了一种可加载个性化特征模型的语音识别系统,该系统包括:语音编解码芯片,用于将接收到的模拟语音信号进行A/D转换得到数字音频信号,及将数字音频信号进行D/A转换为模拟语音信号;数字信号处理器,用于对输入的数字音频信号进行语音识别算法处理;FLASH芯片,用于存储数字信号处理器的语音识别程序及通用语音模型数据,上电启动后,程序及通用语音模型数据从FLASH芯片加载到DDR RAM芯片中;DDR RAM芯片,用于运行语音识别程序,存储通用语音模型数据及个性化特征模型数据,数字信号处理器分别与语音编解码芯片、FLASH芯片、DDR RAM芯片、串口芯片、网络芯片连接。

【技术实现步骤摘要】

本技术涉及嵌入式语音识别
,具体地,涉及一种可加载个性化特征模型的语音识别系统
技术介绍
基于按键及触摸屏的人机接口技术已经非常成熟,并且大大提高了人们操作设备便利性,而语音作为人类的自然界面,利用语音识别来控制操作设备的技术才开始起步,一方面是因为语音识别技术非常复杂,另一方面是嵌入式计算能力不足,即使在PC机上验证的算法很难移植到嵌入式系统中。
技术实现思路
针对现有技术中的缺陷,本技术的目的是提供一种可加载个性化特征模型的语音识别系统,其可以用于语音控制UI的技术,且可以加载个性化特征模型,大大提高识别率及识别的可靠性。根据本技术提供一种可加载个性化特征模型的语音识别系统,所述可加载个性化特征模型的语音识别系统包括:语音编解码芯片,用于将接收到的模拟语音信号进行A/D转换得到数字音频信号,及将数字音频信号进行D/A转换为模拟语音信号;数字信号处理器,用于对输入的数字音频信号进行语音识别算法处理,识别完成后将识别的结果语音合成为输出数字音频信号,发送给语音编解码芯片进行语音输出;FLASH芯片,用于存储数字信号处理器的语音识别程序及通用语音模型数据,上电启动后,程序及通用语音模型数据从FLASH芯片加载到DDR RAM芯片中;DDR RAM芯片,用于运行语音识别程序,存储通用语音模型数据及个性化特征模型数据;串口芯片,数字信号处理器通过串口芯片和外部通信,数字信号处理器通过串 口芯片和外部通信,通过串口给出识别出的词汇对应的汉字码;网络芯片,用于加载个性化特征模型数据,以提高其识别率。优选地,所述数字信号处理器选用高性能低功耗的浮点型TMS320C6748数字信号处理器。优选地,所述语音编解码芯片需要支持多种采样率。优选地,所述网络芯片选择LAN8710A型芯片。优选地,所述数字信号处理器的通信和语音编解码芯片的通信都采取DMA方式通信。与现有技术相比,本技术具有如下的有益效果:本技术可以用于语音控制UI的技术,且可以加载个性化特征模型,大大提高识别率及识别的可靠性。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:图1为本技术可加载个性化特征模型的语音识别系统的原理框图。图2为本技术实施例的可加载个性化特征模型的语音识别系统的识别方法的流程图。具体实施方式下面结合具体实施例对本技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本技术,但不以任何形式限制本技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进。这些都属于本技术的保护范围。如图1所示,本技术可加载个性化特征模型的语音识别系统包括:语音编解码芯片104,用于将接收到的模拟语音信号进行A/D转换得到数字音频信号,及将数字音频信号进行D/A转换为模拟语音信号;数字信号处理器(Digital Signal Processor,DSP)101,用于对输入的数字音频信号进行语音识别算法处理,识别完成后将识别的结果语音合成为输出数字音频信号,发送给语音编解码芯片进行语音输出;FLASH芯片102,用于存储数字信号处理器的语音识别程序及通用语音模型数 据,上电启动后,程序及通用语音模型数据从FLASH芯片加载到DDR RAM芯片中;DDR RAM芯片103,用于运行语音识别程序,存储通用语音模型数据及个性化特征模型数据;串口芯片105,DSP通过串口芯片和外部通信,数字信号处理器通过串口芯片和外部通信,通过串口给出识别出的词汇对应的汉字码;网络芯片106,用于加载个性化特征模型数据,以提高其识别率。本技术可加载个性化特征模型的语音识别系统还可以包括锂电池107,锂电池用于给本技术可加载个性化特征模型的语音识别系统供电。作为一种实施方式,数字信号处理器101可以选用高性能低功耗的浮点型TMS320C6748DSP,同时,为了降低功耗,尽量减少处理器各接口的使用,在满足算法处理的情况下,尽量降低处理器工作频率。FLASH芯片102及DDR RAM芯片103选用市场上通用的并且本款数字信号处理器能够支持的芯片即可。串口芯片105可以选择RS232、RS422、RS485任意一种标准的芯片。语音编解码芯片104需要支持多种采样率,如8KHz、16KHz、44.1KHz等,采样精度支持16bit、24bit。网络芯片106可以选择LAN8710A型芯片。作为一种实施方式,语音编解码芯片被配置为16KHz的采样率,采样精度为24bit。数字信号处理器和语音编解码芯片之间可以采用IIS方式通信,每秒传输字节数位48K字节,为了降低数字信号处理器的负担,使数字信号处理器主要运行识别程序,数字信号处理器的通信和语音编解码芯片的通信都采取DMA(Direct Memory Access,直接内存存取)方式通信。如图2所示,本技术实施例的可加载个性化特征模型的语音识别系统的识别方法,包括如下步骤:步骤一,系统上电后,首先将语音识别程序从FLASH芯片加载到DDR RAM芯片中,然后将通用语音模型数据加载到DDR RAM芯片中(如果有个性化语音模型数据,将个性化语音模型数据加载到DDR RAM芯片中),开始运行准备语音识别;步骤二,语音识别模块上电程序运行后,系统进行识别按键检测,检测到识别按键按下后,开始控制音频编解码芯片,进行AD转换接收语音信号,然后通过语音识别算法进行语音识别,同时系统检测到识别按键抬起后,通过串口给出识别出的词汇对应的汉字码,同时将识别的词汇进行语音合成,控制音频编解码芯片将合成的结果DA转换为模拟语音信号进行输出;步骤三,语音识别模块运行中,如果检测到模型切换按键按下,加载下一条个性化语音模型数据到DDR RAM芯片,如果没有下一条个性化语音模型数据,加载通用语音模型数据到DDR RAM芯片中,后续语音识别将会使用新加载的模型进行语音识别;步骤四,语音识别模块运行中,如果接收到网络加载的个性化语音模型数据,则将收到的个性化语音模型数据存储到FLASH芯片中及DDR RAM芯片中,后续语音识别将会使用新加载的模型进行语音识别。以上对本技术的具体实施例进行了描述。需要理解的是,本技术并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本技术的实质内容。本文档来自技高网...

【技术保护点】
一种可加载个性化特征模型的语音识别系统,其特征在于,包括:语音编解码芯片,用于将接收到的模拟语音信号进行A/D转换得到数字音频信号,及将数字信号处理器后的数字音频信号进行D/A转换为模拟语音信号;数字信号处理器,用于对输入的数字音频信号进行语音识别算法处理,识别完成后将识别的结果语音合成为输出数字音频信号,发送给语音编解码芯片进行语音输出;FLASH芯片,用于存储数字信号处理器的语音识别程序及通用语音模型数据,上电启动后,程序及通用语音模型数据从FLASH芯片加载到DDR RAM芯片中;DDR RAM芯片,用于运行语音识别程序,存储通用语音模型数据及个性化特征模型数据;串口芯片,数字信号处理器通过串口芯片和外部通信,通过串口给出识别出的词汇对应的汉字码;网络芯片,用于加载个性化特征模型数据,以提高其识别率;数字信号处理器分别与语音编解码芯片、FLASH芯片、DDR RAM芯片、串口芯片、网络芯片连接。

【技术特征摘要】
1.一种可加载个性化特征模型的语音识别系统,其特征在于,包括:语音编解码芯片,用于将接收到的模拟语音信号进行A/D转换得到数字音频信号,及将数字信号处理器后的数字音频信号进行D/A转换为模拟语音信号;数字信号处理器,用于对输入的数字音频信号进行语音识别算法处理,识别完成后将识别的结果语音合成为输出数字音频信号,发送给语音编解码芯片进行语音输出;FLASH芯片,用于存储数字信号处理器的语音识别程序及通用语音模型数据,上电启动后,程序及通用语音模型数据从FLASH芯片加载到DDR RAM芯片中;DDR RAM芯片,用于运行语音识别程序,存储通用语音模型数据及个性化特征模型数据;串口芯片,数字信号处理器通过串口芯片和外部通信,通过串口给出识别出的词汇对应的汉字码;网络芯片,用于加载个性化特征模型数据,以提高其识别率;数字信号处理器分别与语音编解码芯...

【专利技术属性】
技术研发人员:郎立国
申请(专利权)人:中航华东光电上海有限公司
类型:新型
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1