一种多模式语音识别送话装置及其控制方法制造方法及图纸

技术编号:26925352 阅读:24 留言:0更新日期:2021-01-01 22:52
本发明专利技术涉及多模式语音识别及送话领域,具体是一种多模式语音识别送话装置及其控制方法,包括电源模块,还包括:FPGA中央处理模块、2DSP运算处理模块、音视频输入输出模块、人机通信控制模块、软件程序模块,其具体控制方法步骤如下:步骤8.1:初始化及自检测;步骤8.2;判断装置是否正常;步骤8.3;判断装置是否更新;步骤8.4;判断是否为自动设置方式;步骤8.5;环境步骤噪音及光亮;步骤8.6;设置工作模式;步骤8.7;判断是否为模式“X”步骤X值取1至5;步骤8.8;执行送话语音模式;步骤8.9;语音信息输出;步骤8.10;判断是否中断;步骤8.11;判断是否退出;步骤8.12:退出;本发明专利技术实现多模式语音识别的送话,提高了语音送话的实时性、准确性。

【技术实现步骤摘要】
一种多模式语音识别送话装置及其控制方法
本专利技术涉及多模式语音识别及送话领域,具体是一种多模式语音识别送话装置及其控制方法。
技术介绍
在语音识别领域,以往情况下大部分都是采用直接语音处理或喉头送话或唇读技术来实现,因为常规耳机以及进行降噪增强处理后,和基于骨导技术的骨传导耳机,就可以满足一般噪声干扰下很多场合下的语音通讯交流需要。随着通用飞机和发动机的不断应用,当进行试飞及试车时,航空发动机将是现场噪音的主要来源,特别大型航空发动机,其噪声频率范围宽,且分贝高,严重影响了现场工作人员正常工作交流。目前,所使用的降噪耳机,降低噪声后大幅度降低了噪声对工作人员的干扰,但仍无法满足作业人员互相交流的需求,只能通过手势或其它方式进行沟通,不能及时表达和传递更多信息。在飞机或航空发动机检查过程中,操作人员需要进行有效的信息交流,按传统语音通讯交流方法和装置,仅仅通过降噪耳机和手势或旗语等方式难以满足使用要求,因此,必须采用新技术新方法,提高语音识别与送话的有效性和科学性,促进飞机或航空发动机检查高效安全实施。如中国专利技术专利申请号为201910032244.0中公开了一种智能头戴式耳机及耳机系统,该系统可以能够根据语音指令实现对应的功能操作,无需手动按键,操作便捷,能够提升用户的体验,系统包括麦克风、语音处理模块、中央处理模块、音频处理模块和喇叭。缺点是该系统只是用于语音指令控制,没有涉及大噪音下多模式语音识别与有效通讯。如中国专利技术专利申请号为201910012835.1中公开了一种混合结构主动降噪耳机、降噪方法及存储介质,能够选择出最适合的降噪系统系数,更加快速准确地追踪噪声信号的变化,从而大幅度提升降噪效果。混合结构主动降噪耳机包括:有源噪声控制系统、参考传声器以及消声传声器。缺点是该系统只是进行循环迭代处理选择降噪系统系数,没有涉及大噪音下多模式语音识别与有效通讯。如中国专利技术专利申请号为201810422275.2中公开了一种基于级联特征提取的唇部检测及读取方法,能够提升唇读的速度和准确性,该方法包括唇部区域检测、唇区提取、维度提取和唇区的读取等。缺点是该方法只是通过对唇区图像特征的多级提取和降维,没有涉及大噪音下多模式语音识别与有效通讯。如中国专利技术专利号为201611086527.6中公开了一种喉头送话器音频增强处理模块,该设备包含包括去呼吸声信号处理板、供电电源和音频输出开关。缺点是该模块改善了喉头送话器的清晰度和识别度,没有涉及大噪音下多模式语音识别与有效通讯。2019年2月出版的《信号处理》第2期第293-299页公开了提出了基于BiLSTM/CTC模型的陆空通话语音识别方法,主要是针对民航陆空通话语言特点,通过,训练BiLSTM网络得到BiLSTM/CTC模型,利用声学模型,语言模型与陆空通话词典实现民航陆空通话的语音识别。缺点是该系统只是实现了应用增强的声学模型使陆空通话语音识别在词识别错误方面降低到5.53%,没有涉及大噪音下多模式语音识别与有效通讯。2019年3月出版的《高技术通讯》第3期第287-294页公开了一种基于人机交互(HCI)设计了表情和语音交互的脑瘫康复训练系统,综合采用上位机和下位机相结合的方式,下位机采用51单片机进行主体驱动,语音采集模块应用LD3320语音芯片,并通过串口通讯的方式,将C语言编程的下位机与Labview编写的上位机相连接,实现语音语义规则进行辨识匹配,对测试完成评判和统计。缺点是该系统只是设计了表情和语音交互人机交互,没有涉及大噪音下多模式语音识别与有效通讯。因此,针对语音识别设计研究,主要是在头戴式耳机及耳机系统、唇部检测及读取方法、喉头送话器和相关提升语音识别质量方面的研究,为脑瘫康复训练系统、民航陆空通话、语音指令控制等功能,但是就大噪音下多模式语音识别与有效送话方法和装置研究较少。有必要开展大噪音下多模式语音识别送话装置及其控制方法的研究。
技术实现思路
为了解决上述问题,本专利技术提出一种多模式语音识别送话装置及其控制方法。一种多模式语音识别送话装置,包括通过供电实现装置工作电压转换类功能的电源模块,还包括:FPGA中央处理模块,与电源模块连接,用于实现中央处理;2DSP运算处理模块,与FPGA中央处理模块和电源模块连接,用于实现对视频数字信号的唇部分割、特征提取、唇话识别及融合识别类运算处理功能;音视频输入输出模块,与FPGA中央处理模块和电源模块相连接,将处理融合完成的音频信号通过合成音频输出电路输出;人机通信控制模块,与FPGA中央处理模块和电源模块连接,用于完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制;软件程序模块,与FPGA中央处理模块连接,完成音频和视频的融合识别与决策输出。所述的FPGA中央处理模块包括用于实现对视频信号的数字化处理的SAA7111数字解码器、与SAA7111数字解码器和音视频输入输出模块相连接,完成前级数据的输入缓存和后级数据输出缓存的FIFO单元、通过虚拟的DSP对外主要与音视频输入输出模块相连接用于提供FPGA中央处理模块的外部音频信号的输入输出功能的DSP单元、通过GPIO及人机通信控制模块相连接实现内部功能模块之间的信号控制的CPLD单元、作为FPGA中央处理模块的通信与数据缓存部分,用于提供FPGA中央处理模块的高速数据处理功能的SRIO通信与数据缓存模块、作为FPGA中央处理模块的对外接口连接电路之一,用于实现信号的配置与整合的信号配置整合模块。所述的2DSP运算处理模块包括分别通过SRIO1X接口与FPGA中央处理模块相连接的DSP1单元和DSP2单元。所述的2DSP运算处理模块采用满足装置的实时性和识别率要求且优化图像信息处理能力和系统的可扩展性,实现送话装置的语音识别、唇话识别和融合决策的两片TMS320C6455处理器。所述的音视频输入输出模块包括通过视频信号线与FPGA中央处理模块中的SAA7111数字解码器相连,用于提供用于唇话识别的原始视频信号源的视频采集器、与FPGA中央处理模块中的DSP单元通过IIC和McASP接口相连接收音频信号,实现芯片控制和数据传输,同时将处理融合完成的音频信号通过合成音频输出电路输出的TLV320AIC23B声音采集芯片、通过音频信号线向TLV320AIC23B声音采集芯片提供常规音频和骨传导音频信号的骨感传感器和声音传感器、为DSP单元提供扩展外部数据存储空间的SDRAM1单元。所述的人机通信控制模块包括通过GPIO与FPGA中央处理模块中的信号配置整合模块相连,提供USB通讯功能,与外部的训练控制计算机进行通讯,完成训练后的数据下载及接收状态回复的Cy7C68013A通信控制器、通过GPIO与FPGA中央处理模块中的CPLD单元相连接,分别完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制的按键开关类、光线感应控制电路及LED发光控制电路。所述的按键开关类包括电源开关、控制按键、光亮旋钮、液晶显示屏、鼠标、本文档来自技高网
...

【技术保护点】
1.一种多模式语音识别送话装置,包括通过供电实现装置工作电压转换类功能的电源模块,其特征在于:还包括:/nFPGA中央处理模块,与电源模块连接,用于实现中央处理;/n2DSP运算处理模块,与FPGA中央处理模块和电源模块连接,用于实现对视频数字信号的唇部分割、特征提取、唇话识别及融合识别类运算处理功能;/n音视频输入输出模块,与FPGA中央处理模块和电源模块相连接,将处理融合完成的音频信号通过合成音频输出电路输出;/n人机通信控制模块,与FPGA中央处理模块和电源模块连接,用于完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制;/n软件程序模块,与FPGA中央处理模块连接,完成音频和视频的融合识别与决策输出。/n

【技术特征摘要】
1.一种多模式语音识别送话装置,包括通过供电实现装置工作电压转换类功能的电源模块,其特征在于:还包括:
FPGA中央处理模块,与电源模块连接,用于实现中央处理;
2DSP运算处理模块,与FPGA中央处理模块和电源模块连接,用于实现对视频数字信号的唇部分割、特征提取、唇话识别及融合识别类运算处理功能;
音视频输入输出模块,与FPGA中央处理模块和电源模块相连接,将处理融合完成的音频信号通过合成音频输出电路输出;
人机通信控制模块,与FPGA中央处理模块和电源模块连接,用于完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制;
软件程序模块,与FPGA中央处理模块连接,完成音频和视频的融合识别与决策输出。


2.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的FPGA中央处理模块包括用于实现对视频信号的数字化处理的SAA7111数字解码器、与SAA7111数字解码器和音视频输入输出模块相连接,完成前级数据的输入缓存和后级数据输出缓存的FIFO单元、通过虚拟的DSP对外主要与音视频输入输出模块相连接用于提供FPGA中央处理模块的外部音频信号的输入输出功能的DSP单元、通过GPIO及人机通信控制模块相连接实现内部功能模块之间的信号控制的CPLD单元、作为FPGA中央处理模块的通信与数据缓存部分,用于提供FPGA中央处理模块的高速数据处理功能的SRIO通信与数据缓存模块、作为FPGA中央处理模块的对外接口连接电路之一,用于实现信号的配置与整合的信号配置整合模块。


3.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的2DSP运算处理模块包括分别通过SRIO1X接口与FPGA中央处理模块相连接的DSP1单元和DSP2单元。


4.根据权利要求3所述的一种多模式语音识别送话装置,其特征在于:所述的2DSP运算处理模块采用满足装置的实时性和识别率要求且优化图像信息处理能力和系统的可扩展性,实现送话装置的语音识别、唇话识别和融合决策的两片TMS320C6455处理器。


5.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的音视频输入输出模块包括通过视频信号线与FPGA中央处理模块中的SAA7111数字解码器相连,用于提供用于唇话识别的原始视频信号源的视频采集器、与FPGA中央处理模块中的DSP单元通过IIC和McASP接口相连接收音频信号,实现芯片控制和数据传输,同时将处理融合完成的音频信号通过合成音频输出电路输出的TLV320AIC23B声音采集芯片、通过音频信号线向TLV320AIC23B声音采集芯片提供常规音频和骨传导音频信号的骨感传感器和声音传感器、为DSP单元提供扩展外部数据存储空间的SDRAM1单元。


6.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的人机通信控制模块包括通过GPIO与FPGA中央处理模块中的信号配置整合模块相连,提供USB通讯功能,与外部的训练控制计算机进行通讯,完成训练后的数据下载及接收状态回复的Cy7C68013A通信控制器、通过GPIO与FPGA中央处理模块中的CPLD单元相连接,分别完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制的按键开关类、光线感应控制电路及LED发光控制电路。


7.根据权利要求6所述的一种多模式语音识别送话装置,其特征在于:所述的按键开关类包括电源开关、控制按键、光亮旋钮、液晶显示屏、鼠标、数字键盘。


8.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的软件程序模块包括用于实现识别算法的训练与数据下载上传的上位机训练控制软件模块、与上位机训练控制软件模块交互用于完成初始化、自检测和故障状态存储与提示、数据更新和USB通讯的嵌入式系统主流程模块、用于完...

【专利技术属性】
技术研发人员:吴传贵阚艳徐贵力周勇军李珊珊胡伟韩梁张小辉
申请(专利权)人:国营芜湖机械厂
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1