一种基于深度学习的车载语音控制方法及其系统技术方案

技术编号:22469279 阅读:54 留言:0更新日期:2019-11-06 12:20
本发明专利技术公开一种基于深度学习的车载语音控制方法及其系统,包括以下步骤,信号采集模块,采集车辆内用户的实时音频信号;信号增大电路,接收多个所述信号采集模块产生的电信号加总放大后提供音频输入信号;语音识别模块,所述音频输入信号输入至所述语音识别模块生成识别结果;控制模块,接收匹配的所述指令信号进行指令的执行。本发明专利技术的有益效果:基于深度学习的语音识别在一定程度上提高语音识别的精度,能够更好的理解车辆内用户所表达的语言意图,从而更加准确的语音控制车辆的行动。

A vehicle voice control method and system based on deep learning

【技术实现步骤摘要】
一种基于深度学习的车载语音控制方法及其系统
本专利技术涉及语音识别的
,尤其涉及一种基于深度学习的车载语音控制系统及其控制方法。
技术介绍
近年来,伴随着深度学习的发展,语音识别领域也基于深度学习取得新的突破和进展。出现了很多新的语音识别模型,显著提升了识别效果,同时伴随移动设备、智能家居设备和车载信息系统等的普及,语音识别正在越来越多地出现在人们的日常生活中。传统语音识别方法主要是采用模板匹配的方法,这种方法在孤立词的识别可以取得一定的效果,但面对连续大量的语音表达上,识别效果大打折扣。基于深度学习的语音识别方法相对于传统方法,它具有更好的特征提取和推理等能力。将基于深度学习的语音识别技术应用于车载控制系统中,有利于系统更好的从车主的语言中理解车主的意图,从而达到控制车辆的目的。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。鉴于上述现有存在的问题,提出了本专利技术。因此,本专利技术解决的一个技术问题是:为了解决传统语音识别对连续大量语音识别精度较低,从而对车主表达意图理解不够的缺陷。为解决上述技术问题,本专利技术提供如下技术方案:一种基于深度学习的车载语音控制方法,包括以下步骤,信号采集模块,采集车辆内用户的实时音频信号;信号增大电路,接收多个所述信号采集模块产生的电信号加总放大后提供音频输入信号;语音识别模块,所述音频输入信号输入至所述语音识别模块生成识别结果,根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号;控制模块,接收匹配的所述指令信号进行指令的执行。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:还包括所述音频输入信号转化为文本信号或直接将文本信号输入至所述语音识别模块中,根据所述文本信号与所述指令库的指令完成匹配后输出指令信号。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:还包括所述语音识别模块的训练步骤,训练语音输入至录制模块录制为粗音频信号;所述粗音频信号输入至加工模块内进行处理加工得到较为纯净的精音频信号;特征提取模块对所述精音频信号进行特征提取并得到特性向量;构建深度学习模型模块,将提取的所述特性向量和文本语料分别作为模型的输入,对所述深度学习模型模块进行训练;待识别语音输入解码模块搜索输出分数最高的词序列作为识别结果。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:所述深度学习模型模块还包括声学模型和语言模型;所述声学模型将声学和发音学结合,通过对大量语音文件进行训练得到声学模型,识别时对提取的特征进行打分,生成声学模型分数;所述语言模型通过对文本语料作为模型输入进行训练生成,且训练好的所述声学模型能够估计假设词序列的可能性,给出输入语音的词序列的语言模型打分;所述解码模块解码搜索输出分数最高的词序列作为识别结果。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:所述录制模块通过收集文字素材,根据收集到的素材,用麦克风组件录制成音频,录制时语速正常和吐字清晰,同时生成与音频对应的文本作为当下录制音频的标签。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:所述加工模块包括以下加工步骤,采用一阶高通数字滤波器:H(z)=1-μz-1,其中μ表示系数,取值范围在0.9~1之间;语音信号具有短时平稳特性,对输入的所述粗音频信号进行重叠分段,设窗函数为w(n)、语音信号为s(n),则加窗后的语音信号为:sw(n)=w(n)·s(n);当窗函数为矩形窗时,增大阶数就会导致通带最大的上冲越来越接近间断点,采用边瓣较小的窗函数:作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:所述特征提取模块包括以下提取步骤,输入所述粗音频信号进行加工处理后,得到时域的所述精音频信号;对所述精音频信号做短时傅里叶变换,得到其线性频谱;获得的所述线性频谱的线性频率转换为人耳频率的能量谱;将所述能量谱通过滤波器对频谱信号进行卷积滤波并求取对数能量;每组滤波器的对数能量做离散余弦变换后输出结果进行计算,得到提取的特征。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:所述解码模块还包括以下步骤,给定待识别特征序列;由声学模型、语言模型和发音词典共同构建的搜索空间;在搜索空间中查找到能够以最大概率输出待识别特征序列对应的词串;搜索输出分数最高的词序列作为识别结果。作为本专利技术所述的基于深度学习的车载语音控制方法的一种优选方案,其中:还包括以下识别步骤,任意一段待识别语音的特征观测序列O={o1,o2,...,on},利用统计方法计算得到最大概率表示观测序列的词序列,如下式:其中,W={w1,w2,...,wn}表示O对应的全部词序列,P表示O对应全部词序列W的概率,W*表示识别解码得到的词集合中最大条件概率对应的词序列,即最终的识别结果。本专利技术解决的另一个技术问题是:提供一种基于深度学习的车载语音控制系统,上述控制方法依托于本系统实现。为解决上述技术问题,本专利技术提供如下技术方案:一种基于深度学习的车载语音控制系统,其特征在于:包括信号采集模块、信号增大电路和语音识别模块;信号采集模块,所述信号采集模块分布设置于车辆内,用于实时采集用户的音频信号;信号增大电路,与所述信号采集模块连接,用于接收多个所述信号采集模块产生的电信号加总放大后提供音频输入信号;语音识别模块,与所述信号增大电路连接,所述音频输入信号输入至所述语音识别模块生成识别结果,且能够根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号;控制模块,与所述语音识别模块连接,用于接收匹配的所述指令信号进行指令的执行控制车辆的状态。本专利技术的有益效果:基于深度学习的语音识别在一定程度上提高语音识别的精度,能够更好的理解车辆内用户所表达的语言意图,从而更加准确的语音控制车辆的行动。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本专利技术第一种实施例所述基于深度学习的车载语音控制方法的整体结构示意图;图2为本专利技术第一种实施例所述声学模型结构示意图;图3为本专利技术第一种实施例所述基于深度学习网络的声学模型结构示意图;图4为本专利技术第二种实施例所述基于深度学习的车载语音控制系统的整体结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本文档来自技高网...

【技术保护点】
1.一种基于深度学习的车载语音控制方法,其特征在于:包括以下步骤,信号采集模块(100),采集车辆内用户的实时音频信号;信号增大电路(200),接收多个所述信号采集模块(100)产生的电信号加总放大后提供音频输入信号;语音识别模块(300),所述音频输入信号输入至所述语音识别模块(300)生成识别结果,根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号;控制模块(400),接收匹配的所述指令信号进行指令的执行。

【技术特征摘要】
1.一种基于深度学习的车载语音控制方法,其特征在于:包括以下步骤,信号采集模块(100),采集车辆内用户的实时音频信号;信号增大电路(200),接收多个所述信号采集模块(100)产生的电信号加总放大后提供音频输入信号;语音识别模块(300),所述音频输入信号输入至所述语音识别模块(300)生成识别结果,根据所述识别结果匹配指令库内与所述识别结果相似度高于设定阈值的指令信号;控制模块(400),接收匹配的所述指令信号进行指令的执行。2.如权利要求1所述的基于深度学习的车载语音控制方法,其特征在于:还包括所述音频输入信号转化为文本信号或直接将文本信号输入至所述语音识别模块(300)中,根据所述文本信号与所述指令库的指令完成匹配后输出指令信号。3.如权利要求1或2所述的基于深度学习的车载语音控制方法,其特征在于:还包括所述语音识别模块(300)的训练步骤,训练语音输入至录制模块(301)录制为粗音频信号;所述粗音频信号输入至加工模块(302)内进行处理加工得到较为纯净的精音频信号;特征提取模块(303)对所述精音频信号进行特征提取并得到特性向量;构建深度学习模型模块(304),将提取的所述特性向量和文本语料分别作为模型的输入,对所述深度学习模型模块(304)进行训练;待识别语音输入解码模块(305)搜索输出分数最高的词序列作为识别结果。4.如权利要求3所述的基于深度学习的车载语音控制方法,其特征在于:所述深度学习模型模块(304)还包括声学模型和语言模型;所述声学模型将声学和发音学结合,通过对大量语音文件进行训练得到声学模型,识别时对提取的特征进行打分,生成声学模型分数;所述语言模型通过对文本语料作为模型输入进行训练生成,且训练好的所述声学模型能够估计假设词序列的可能性,给出输入语音的词序列的语言模型打分;所述解码模块(305)解码搜索输出分数最高的词序列作为识别结果。5.如权利要求4任一所述的基于深度学习的车载语音控制方法,其特征在于:所述录制模块(301)通过收集文字素材,根据收集到的素材,用麦克风组件录制成音频,录制时语速正常和吐字清晰,同时生成与音频对应的文本作为当下录制音频的标签。6.如权利要求4或5所述的基于深度学习的车载语音控制方法,其特征在于:所述加工模块(302)包括以下加工步骤,采用一阶高通数字滤波器:H(z)=1-μz-1,其中μ表示系数,取值范围...

【专利技术属性】
技术研发人员:张亮
申请(专利权)人:的卢技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1