语音识别方法、装置及车辆制造方法及图纸

技术编号：37050447 阅读：22 留言：0更新日期：2023-03-29 19:28

本申请涉及一种用语音识别方法、装置及车辆。该方法包括：接收车辆座舱内用户发出的语音请求；对待识别语音请求进行特征提取，生成特征向量；根据输入的特征向量，通过声学模型输出对应的音素概率矩阵；根据音素概率矩阵，输入语音识别系统的语音解码图中搜索获得解码路径，以逐字输出语音识别文本并逐字在车载系统的图形用户界面显示；其中，语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得。本申请提供的方案，能够使语音识别文本以字粒度的形式识别和显示，且对系统资源消耗少。且对系统资源消耗少。且对系统资源消耗少。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置及车辆

[0001]本申请涉及语音识别
，尤其涉及一种语音识别方法、装置及车辆。

技术介绍

[0002]语音交互是基于语音输入的新一代交互模式。随着汽车工业和人机交互技术的不断发展，智能汽车也为用户提供了语音交互功能。智能汽车可以搭载语音识别系统来提供自然的人机交互。其中，语音识别系统先根据用户的语音信号进行语音识别（Automatic Speech Recognition，ASR），将语音序列转换为文本序列，进而再根据自然语言理解（Natural Language Understanding，NLU）识别文本序列中的指令以供车端执行，使得用户在车内不仅能够通过语音控制导航、音乐等车载软件，还能够控制车窗、空调等车内硬件。其中，为了更好地丰富人机交互氛围，语音识别文本还会在车端的屏幕上进行显示。
[0003]相关技术中，语音识别所采用的语言模型一般以词粒度进行建模，语言模型对应的WFST（加权有限状态转化器）的输入和输出均为词序列，使得语音识别文本以词组为单位进行上屏显示。例如在识别显示出第一组词组后，需要等待一段时间识别显示第二组词组，即在一段时间内没有新词显示，一段时间内可能刷新显示一段较长的词组。这样的语音识别效果具有顿挫感，给用户带来不良体验。

技术实现思路

[0004]为解决或部分解决相关技术中存在的问题，本申请提供一种语音识别方法、装置及车辆，能够使语音识别文本以字粒度的形式识别和显示，且对系统资源消耗少。
[0005]本申请第一方面提供一种语音识别...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：接收车辆座舱内用户发出的语音请求；对待识别语音请求进行特征提取，生成特征向量；根据输入的所述特征向量，通过声学模型输出对应的音素概率矩阵；根据音素概率矩阵，输入语音识别系统的语音解码图中搜索获得解码路径，以逐字输出语音识别文本并逐字在车载系统的图形用户界面显示；其中，所述语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得。2.根据权利要求1所述的方法，其特征在于，所述语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得，包括：遍历语言模型的原始解码图的解码路径，分别获取各原始转移弧的出弧词对应的各单字；将各单字依序作为独立的输出标签，并分别将各对应的中间节点依序串联形成拆分路径；删除所述原始转移弧，并根据各所述拆分路径生成所述语言模型的目标解码图；将所述目标解码图与语音识别系统内的预设解码图进行合并，生成语音解码图以供语音识别。3.根据权利要求2所述的方法，其特征在于，所述将各单字依序作为独立的输出标签，并分别将各对应的中间节点依序串联形成拆分路径，包括：根据单个原始转移弧的状态转移集，获取对应的起始节点S、终止节点E、入弧词、出弧词及转移概率；当所述出弧词的字数L≥2时，从原始转移弧的起始节点S开始，生成首条分支转移弧和对应的中间节点（M+1），首条分支转移弧的状态转移集包括所述入弧词、首位出弧字及所述转移概率；以中间节点（M+1）作为第二条分支转移弧的起始节点，生成第二条分支转移弧和对应的中间节点（M+2），第二条分支转移弧的状态转移集包括入弧占位符、第2位出弧字及概率占位符；从起始节点S开始，依序串联各分支转移弧及中间节点，并以原始转移弧的终止节点E作为终止节点，形成所述拆分路径。4.根据权利要求2所述的方法，其特征在于，所述将所述目标解码图与语音识别系统内的预设解码图进行合并，生成所述语音解码图之后，还包括：将所述语音解码图进行确定化和最小化，生成优化解码图。5.根据权利要求2所述的方法，其特征在于，所述遍历语言模型的原始解码图中的解码路径，分别获...

【专利技术属性】
技术研发人员：张辽，
申请(专利权)人：广州小鹏汽车科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人