用于行车记录仪的语音控制方法及系统技术方案

技术编号:20223153 阅读:161 留言:0更新日期:2019-01-28 21:16
本发明专利技术实施例提供一种用于行车记录仪的语音控制方法。该方法包括:实时采集车辆内的声音,生成相应的音频;提取音频的Fbank特征,通过内置神经网络解析Fbank特征,确定音频命中的控制命令词内每个命令字的后验概率;通过滤波处理控制命令词内每个命令字的后验概率,确定音频命中各控制命令词的联合概率;将联合概率最大的控制命令词作为有效控制命令词;获取预设识别阈值,当有效控制命令词的联合概率达到预设识别阈值时,将音频与有效控制命令词对应,执行与有效控制命令词相对应的操作。本发明专利技术实施例还提供一种用于行车记录仪的语音控制系统。本发明专利技术实施例通过对采集音频进行Fbank特征提取,降低了运算量,由于不做解码,节省了内存与硬件算法的占用。

【技术实现步骤摘要】
用于行车记录仪的语音控制方法及系统
本专利技术涉及智能语音领域,尤其涉及一种用于行车记录仪的语音控制方法及系统。
技术介绍
行车记录仪即记录车辆行驶途中的影像以及声音等相关资讯的仪器。安装行车记录仪后,能够记录汽车行驶全过程的视频、图像和声音,可为交通事故提供证据。随着语音技术的发展,行车记录仪从采用触摸屏或者按键的方式进行控制,逐步发展到使用语音控制。通过语音控制行车记录仪,解放了车辆驾驶人员的双手,保障了车辆驾驶人员的注意力不被分散,更加安全。这种可以语音控制的行车记录仪通常采用实时语音解码的识别的方式,对采集的音频进行识别解码,输出驾驶员说出的语音对应的文字后,与命令词进行对比,最终确认识别结果,进而执行相应的控制指令。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:由于采用识别解码的方法,受限于解码方法本身的算法特性,造成实际使用的模型资源较大,实际运算量与存储空间需求都较高,也就需要在处理性能较强、存储空间交大的设备中运行,使得成本较高。此外,解码的方式会受到车内噪声以及风噪的影响,造成识别的准确率降低,影响体验。有的行车记录仪本身不做语音识别,仅仅将接收到的音频信号通过无线网络发送到特定的云端神经网络中进行识别。然后行车记录仪再接收云端神经网络反馈的具体指令进行操作。但是这种方法需要无线网络的畅通,如果网络出现延迟或者没有网络,那么无法实现语音控制。
技术实现思路
为了至少解决现有技术中由于识别解码方法本身的特性,需要行车记录仪具备存储空间较高、处理性能较强的性能以至于成本较高的问题。同时识别解码本身也会受到噪声的干扰,使得识别结果准确率较低。而使用云处理来进行语音识别则需要稳定的网络,当网络出现延迟,或者没有网络时,无法实现语音控制的问题。第一方面,本专利技术实施例提供一种用于行车记录仪的语音控制方法,包括:实时采集车辆内的声音,生成相应的音频;提取所述音频的Fbank特征,通过内置神经网络解析所述Fbank特征,确定所述音频命中的控制命令词内每个命令字的后验概率;通过滤波处理所述控制命令词内每个命令字的后验概率,确定所述音频命中各控制命令词的联合概率;将所述联合概率最大的控制命令词作为有效控制命令词;获取预设识别阈值,当所述有效控制命令词的联合概率达到所述预设识别阈值时,将所述音频与所述有效控制命令词对应,执行与所述有效控制命令词相对应的操作。第二方面,本专利技术实施例提供一种用于行车记录仪的语音控制系统,包括:声音采集程序模块,用于实时采集车辆内的声音,生成相应的音频;命令字后验概率确定程序模块,用于提取所述音频的Fbank特征,通过内置神经网络解析所述Fbank特征,确定所述音频命中的控制命令词内每个命令字的后验概率;联合概率确定程序模块,用于通过滤波处理所述控制命令词内每个命令字的后验概率,确定所述音频命中各控制命令词的联合概率;有效控制命令词确定程序模块,用于将所述联合概率最大的控制命令词作为有效控制命令词;控制程序模块,用于获取预设识别阈值,当所述有效控制命令词的联合概率达到所述预设识别阈值时,将所述音频与所述有效控制命令词对应,执行与所述有效控制命令词相对应的操作。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的用于行车记录仪的语音控制方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的用于行车记录仪的语音控制方法的步骤。本专利技术实施例的有益效果在于:通过对采集音频进行Fbank特征提取,将音频转换为字符型向量,降低了实际送入神经网络的数据量,同时,由于不做解码部分,节省了内存与硬件算法的占用,再通过数字滤波得到更稳定的输出,提升了识别的准确度。将神经网络配置在行车记录仪本地,不需要网络,使得使用场景更佳广泛,避免了网速等问题,提高使用效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种用于行车记录仪的语音控制方法的流程图;图2是本专利技术一实施例提供的一种用于行车记录仪的语音控制系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示为本专利技术一实施例提供的一种用于行车记录仪的语音控制方法的流程图,包括如下步骤:S11:实时采集车辆内的声音,生成相应的音频;S12:提取所述音频的Fbank特征,通过内置神经网络解析所述Fbank特征,确定所述音频命中的控制命令词内每个命令字的后验概率;S13:通过滤波处理所述控制命令词内每个命令字的后验概率,确定所述音频命中各控制命令词的联合概率;S14:将所述联合概率最大的控制命令词作为有效控制命令词;S15:获取预设识别阈值,当所述有效控制命令词的联合概率达到所述预设识别阈值时,将所述音频与所述有效控制命令词对应,执行与所述有效控制命令词相对应的操作。在本实施方式中,为了解决车内复杂的使用环境,预先在行车记录仪内训练神经网络,通过使用实际的车内录音进行训练,使其覆盖大部分的车内使用场景。对于步骤S11,在车辆启动后,行车记录仪实时采集车辆内的声音,以实现可以随时获取到用户的声音。针对于行车记录仪所安放的位置,或者行车记录仪有特殊的附加麦克风,可以将所述行车记录仪或者特殊的附加麦克风,安放在驾驶人员的头部附近,这样所采集的声音更加清晰,可以进一步的提升所采集声音的音质效果。将采集的声音,生成相应的音频。对于步骤S12,根据步骤S11生成的音频,提取所述音频的Fbank特征,其中提取所述音频的Fbank特征包括:预加重,作用就是为了消除发生过程中,声带和嘴唇造成的效应,来补偿语音信号收到发音系统所压抑的高频部分。并且能突显高频的共振峰;分帧,将语音信号分为帧,通常帧长=20~40ms,帧移=10ms(可以根据具体的情况而定);加窗,对每帧信号加一个hamming/hanning窗,使每帧信号两端衰减至接近0;STFT,得到向量特征,并将能量(幅值)谱转化为功率谱;Mel滤波,通过Mel滤波器组进行滤波,以得到符合人耳听觉习惯的声谱,最后通常取对数将单位转换成db;DCT,离散余弦变换,得到倒谱系数。通过预先训练的内置的神经网络解析所述Fbank特征,确定所述音频命中的控制命令词内每个命令字的后验概率。例如,控制命令词有“播放音乐”、“下一首”、“上一首”…等控制命令词,而确定的每个命令字包括“播”、“放”、“音”、“乐”、“下”、“上”、“一”、“首”…等,进本文档来自技高网...

【技术保护点】
1.一种用于行车记录仪的语音控制方法,包括:实时采集车辆内的声音,生成相应的音频;提取所述音频的Fbank特征,通过内置神经网络解析所述Fbank特征,确定所述音频命中的控制命令词内每个命令字的后验概率;通过滤波处理所述控制命令词内每个命令字的后验概率,确定所述音频命中各控制命令词的联合概率;将所述联合概率最大的控制命令词作为有效控制命令词;获取预设识别阈值,当所述有效控制命令词的联合概率达到所述预设识别阈值时,将所述音频与所述有效控制命令词对应,执行与所述有效控制命令词相对应的操作。

【技术特征摘要】
1.一种用于行车记录仪的语音控制方法,包括:实时采集车辆内的声音,生成相应的音频;提取所述音频的Fbank特征,通过内置神经网络解析所述Fbank特征,确定所述音频命中的控制命令词内每个命令字的后验概率;通过滤波处理所述控制命令词内每个命令字的后验概率,确定所述音频命中各控制命令词的联合概率;将所述联合概率最大的控制命令词作为有效控制命令词;获取预设识别阈值,当所述有效控制命令词的联合概率达到所述预设识别阈值时,将所述音频与所述有效控制命令词对应,执行与所述有效控制命令词相对应的操作。2.根据权利要求1所述的方法,其中,所述滤波处理包括:数字滤波。3.根据权利要求2所述的方法,其中,所述数字滤波对所述控制命令词内每个命令字的后验概率进行滤波,包括:将各控制命令词内每个命令字的后验概率的最大值作为所述各控制命令词内每个命令字对应的有效后验概率;将各控制命令词内的每个命令字的有效后验概率两两相乘,确定各控制命令词的联合概率。4.根据权利要求1所述的方法,其中,所述行车记录仪实时采集车辆内的声音,生成相应的音频还包括:实时采集车辆内的声音,当所述车辆内的声音达到预设的声压级时,生成相应的音频。5.根据权利要求1所述的方法,其中,所述方法还包括:当所述有效控制命令词的联合概率没有达到所述预设识别阈值时,无法确定所述音频对应的控制命令词,反馈识别失败信息。6.一种用于行车记录仪的语音控制系...

【专利技术属性】
技术研发人员:白生炜
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1