【技术实现步骤摘要】
一种多模式语音识别送话装置及其控制方法
本专利技术涉及多模式语音识别及送话领域,具体是一种多模式语音识别送话装置及其控制方法。
技术介绍
在语音识别领域,以往情况下大部分都是采用直接语音处理或喉头送话或唇读技术来实现,因为常规耳机以及进行降噪增强处理后,和基于骨导技术的骨传导耳机,就可以满足一般噪声干扰下很多场合下的语音通讯交流需要。随着通用飞机和发动机的不断应用,当进行试飞及试车时,航空发动机将是现场噪音的主要来源,特别大型航空发动机,其噪声频率范围宽,且分贝高,严重影响了现场工作人员正常工作交流。目前,所使用的降噪耳机,降低噪声后大幅度降低了噪声对工作人员的干扰,但仍无法满足作业人员互相交流的需求,只能通过手势或其它方式进行沟通,不能及时表达和传递更多信息。在飞机或航空发动机检查过程中,操作人员需要进行有效的信息交流,按传统语音通讯交流方法和装置,仅仅通过降噪耳机和手势或旗语等方式难以满足使用要求,因此,必须采用新技术新方法,提高语音识别与送话的有效性和科学性,促进飞机或航空发动机检查高效安全实施。如中国专利技术专利申请号为201910032244.0中公开了一种智能头戴式耳机及耳机系统,该系统可以能够根据语音指令实现对应的功能操作,无需手动按键,操作便捷,能够提升用户的体验,系统包括麦克风、语音处理模块、中央处理模块、音频处理模块和喇叭。缺点是该系统只是用于语音指令控制,没有涉及大噪音下多模式语音识别与有效通讯。如中国专利技术专利申请号为201910012835.1中公开了一种混合结构主 ...
【技术保护点】
1.一种多模式语音识别送话装置,包括通过供电实现装置工作电压转换类功能的电源模块,其特征在于:还包括:/nFPGA中央处理模块,与电源模块连接,用于实现中央处理;/n2DSP运算处理模块,与FPGA中央处理模块和电源模块连接,用于实现对视频数字信号的唇部分割、特征提取、唇话识别及融合识别类运算处理功能;/n音视频输入输出模块,与FPGA中央处理模块和电源模块相连接,将处理融合完成的音频信号通过合成音频输出电路输出;/n人机通信控制模块,与FPGA中央处理模块和电源模块连接,用于完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制;/n软件程序模块,与FPGA中央处理模块连接,完成音频和视频的融合识别与决策输出。/n
【技术特征摘要】
1.一种多模式语音识别送话装置,包括通过供电实现装置工作电压转换类功能的电源模块,其特征在于:还包括:
FPGA中央处理模块,与电源模块连接,用于实现中央处理;
2DSP运算处理模块,与FPGA中央处理模块和电源模块连接,用于实现对视频数字信号的唇部分割、特征提取、唇话识别及融合识别类运算处理功能;
音视频输入输出模块,与FPGA中央处理模块和电源模块相连接,将处理融合完成的音频信号通过合成音频输出电路输出;
人机通信控制模块,与FPGA中央处理模块和电源模块连接,用于完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制;
软件程序模块,与FPGA中央处理模块连接,完成音频和视频的融合识别与决策输出。
2.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的FPGA中央处理模块包括用于实现对视频信号的数字化处理的SAA7111数字解码器、与SAA7111数字解码器和音视频输入输出模块相连接,完成前级数据的输入缓存和后级数据输出缓存的FIFO单元、通过虚拟的DSP对外主要与音视频输入输出模块相连接用于提供FPGA中央处理模块的外部音频信号的输入输出功能的DSP单元、通过GPIO及人机通信控制模块相连接实现内部功能模块之间的信号控制的CPLD单元、作为FPGA中央处理模块的通信与数据缓存部分,用于提供FPGA中央处理模块的高速数据处理功能的SRIO通信与数据缓存模块、作为FPGA中央处理模块的对外接口连接电路之一,用于实现信号的配置与整合的信号配置整合模块。
3.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的2DSP运算处理模块包括分别通过SRIO1X接口与FPGA中央处理模块相连接的DSP1单元和DSP2单元。
4.根据权利要求3所述的一种多模式语音识别送话装置,其特征在于:所述的2DSP运算处理模块采用满足装置的实时性和识别率要求且优化图像信息处理能力和系统的可扩展性,实现送话装置的语音识别、唇话识别和融合决策的两片TMS320C6455处理器。
5.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的音视频输入输出模块包括通过视频信号线与FPGA中央处理模块中的SAA7111数字解码器相连,用于提供用于唇话识别的原始视频信号源的视频采集器、与FPGA中央处理模块中的DSP单元通过IIC和McASP接口相连接收音频信号,实现芯片控制和数据传输,同时将处理融合完成的音频信号通过合成音频输出电路输出的TLV320AIC23B声音采集芯片、通过音频信号线向TLV320AIC23B声音采集芯片提供常规音频和骨传导音频信号的骨感传感器和声音传感器、为DSP单元提供扩展外部数据存储空间的SDRAM1单元。
6.根据权利要求2所述的一种多模式语音识别送话装置,其特征在于:所述的人机通信控制模块包括通过GPIO与FPGA中央处理模块中的信号配置整合模块相连,提供USB通讯功能,与外部的训练控制计算机进行通讯,完成训练后的数据下载及接收状态回复的Cy7C68013A通信控制器、通过GPIO与FPGA中央处理模块中的CPLD单元相连接,分别完成电源开关、模式选择、工作状态显示、光线感应和LED发光控制的按键开关类、光线感应控制电路及LED发光控制电路。
7.根据权利要求6所述的一种多模式语音识别送话装置,其特征在于:所述的按键开关类包括电源开关、控制按键、光亮旋钮、液晶显示屏、鼠标、数字键盘。
8.根据权利要求1所述的一种多模式语音识别送话装置,其特征在于:所述的软件程序模块包括用于实现识别算法的训练与数据下载上传的上位机训练控制软件模块、与上位机训练控制软件模块交互用于完成初始化、自检测和故障状态存储与提示、数据更新和USB通讯的嵌入式系统主流程模块、用于完...
【专利技术属性】
技术研发人员:吴传贵,阚艳,徐贵力,周勇军,李珊珊,胡伟,韩梁,张小辉,
申请(专利权)人:国营芜湖机械厂,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。