语音识别方法、装置及车辆制造方法及图纸

技术编号:37050447 阅读:22 留言:0更新日期:2023-03-29 19:28
本申请涉及一种用语音识别方法、装置及车辆。该方法包括:接收车辆座舱内用户发出的语音请求;对待识别语音请求进行特征提取,生成特征向量;根据输入的特征向量,通过声学模型输出对应的音素概率矩阵;根据音素概率矩阵,输入语音识别系统的语音解码图中搜索获得解码路径,以逐字输出语音识别文本并逐字在车载系统的图形用户界面显示;其中,语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得。本申请提供的方案,能够使语音识别文本以字粒度的形式识别和显示,且对系统资源消耗少。且对系统资源消耗少。且对系统资源消耗少。

【技术实现步骤摘要】
语音识别方法、装置及车辆


[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置及车辆。

技术介绍

[0002]语音交互是基于语音输入的新一代交互模式。随着汽车工业和人机交互技术的不断发展,智能汽车也为用户提供了语音交互功能。智能汽车可以搭载语音识别系统来提供自然的人机交互。其中,语音识别系统先根据用户的语音信号进行语音识别(Automatic Speech Recognition,ASR),将语音序列转换为文本序列,进而再根据自然语言理解(Natural Language Understanding,NLU)识别文本序列中的指令以供车端执行,使得用户在车内不仅能够通过语音控制导航、音乐等车载软件,还能够控制车窗、空调等车内硬件。其中,为了更好地丰富人机交互氛围,语音识别文本还会在车端的屏幕上进行显示。
[0003]相关技术中,语音识别所采用的语言模型一般以词粒度进行建模,语言模型对应的WFST(加权有限状态转化器)的输入和输出均为词序列,使得语音识别文本以词组为单位进行上屏显示。例如在识别显示出第一组词组后,需要等待一段时间识别显示第二组词组,即在一段时间内没有新词显示,一段时间内可能刷新显示一段较长的词组。这样的语音识别效果具有顿挫感,给用户带来不良体验。

技术实现思路

[0004]为解决或部分解决相关技术中存在的问题,本申请提供一种语音识别方法、装置及车辆,能够使语音识别文本以字粒度的形式识别和显示,且对系统资源消耗少。
[0005]本申请第一方面提供一种语音识别方法,其包括:接收车辆座舱内用户发出的语音请求;对待识别语音请求进行特征提取,生成特征向量;根据输入的所述特征向量,通过声学模型输出对应的音素概率矩阵;根据音素概率矩阵,输入语音识别系统的语音解码图中搜索获得解码路径,以逐字输出语音识别文本并逐字在车载系统的图形用户界面显示;其中,所述语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得。根据语音解码图,可以快速且逐字获得语音识别文本,且语音识别文本可以逐字在屏幕的车载系统的图形用户界面连续进行显示,而不是以词组的形式进行间歇式成组显示,改善用户体验。
[0006]在本申请的语音识别方法中,所述语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得,包括:遍历语言模型的原始解码图的解码路径,分别获取各原始转移弧的出弧词对应的各单字;将各单字依序作为独立的出弧标签,并分别采用中间节点串联形成拆分路径;删除所述原始转移弧,并根据各所述拆分路径生成所述语言模型的目标解码图;将所述目标解码图与语音识别系统内的预设解码图进行合并,生成语音解码图以供语音识别。通过将语言模型的原始解码图中的出弧词进行拆分,形成多个出弧字,组成了具有多个独立的出弧节点的拆分路径,从而可以生成字粒度的语音识别文本,可以提高识别效率,且新的解码图的尺寸与原始解码图相比不作改变,避免对系统内存
产生影响。
[0007]在本申请的语音识别方法中,所述将各单字依序独立作为出弧标签,并分别采用中间节点串联形成拆分路径,包括:根据单个原始转移弧的状态转移集,获取对应的起始节点、终止节点、入弧词、出弧词及转移概率;当所述出弧词的字数L≥2时,从原始转移弧的起始节点S开始,生成首条分支转移弧和对应的中间节点(M+1),首条分支转移弧的状态转移集包括所述入弧词、首位出弧字及所述转移概率;以中间节点(M+1)作为第二条分支转移弧的起始节点,生成第二条分支转移弧和对应的中间节点(M+2),第二条分支转移弧的状态转移集包括入弧占位符、第2位出弧字及概率占位符;从起始节点S开始,依序串联各分支转移弧及中间节点,并以原始转移弧的终止节点E作为终止节点,形成所述拆分路径。通过在拆分路径设置入弧占位符和概率占位符,使得新生成的拆分路径对解码路径的转移概率不产生影响。
[0008]在本申请的语音识别方法中,所述将所述目标解码图与语音识别系统内的预设解码图进行合并,生成所述语音解码图之后,还包括:将所述语音解码图进行确定化和最小化,生成优化解码图。通过对耦合后的语音解码图进行确定化和最小化,去除冗余的路径,可以获得内存更小的语音解码图。
[0009]在本申请的语音识别方法中,所述遍历语言模型的原始解码图中的解码路径,分别获取各所述原始转移弧的出弧词对应的各单字,还包括:获取各原始节点的编号;采用与所述原始节点的编号相异的编号分别作为各所述中间节点的节点标识,且各中间节点的编号不同。通过获取各原始状态节点的编号后,使得新增的中间节点便于设置相异编号。
[0010]在本申请的语音识别方法中,所述方法还包括:根据当前帧的语音识别文本,通过预设NLU模型进行预响应判别,获得判别结果;当所述判别结果符合预设规则时,根据预设NLU模型进行预响应。根据符合预设规则的判别结果进行预响应的方式执行用户语音指令,可以提高响应速度。
[0011]在本申请的语音识别方法中,所述根据当前帧的语音识别文本,通过预设NLU模型进行预响应判别,获得所述判别结果,包括:根据预设高频单字列表,通过预设NLU模型对当前累计的语音识别文本进行语义补全,获得语义补全文本;对所述语义补全文本进行语义完整度判别,获得对应的判别结果。
[0012]在本申请的语音识别方法中,所述当所述判别结果符合预设规则时,根据所述语音识别文本进行响应,包括:当语义完整度判别结果为语义完整时,根据当前语义补全文本进行语义解析,获得语义解析结果;根据语义解析结果确定当前判别结果的置信度,如果置信度大于预设值时,则响应执行所述语义解析结果。通过对判别结果的置信度进行二次判定,可以提高NLU模型进行预响应的可靠性。
[0013]本申请第二方面提供一种语音识别装置,其包括:语音接收模块,用于接收车辆座舱内用户发出的语音请求;特征提取模块,用于对待识别语音请求进行特征提取,生成特征向量;特征处理模块,用于根据输入的所述特征向量,通过声学模型输出对应的音素概率矩阵;语音识别模块,用于根据音素概率矩阵,输入语音识别系统的语音解码图中搜索获得解码路径,以逐字输出语音识别文本并逐字在车载屏幕显示;其中,所述语音解码图的
出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得。
[0014]本申请第三方面提供一种车辆,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0015]本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被车辆的处理器执行时,使所述处理器执行如上所述的方法。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0017]通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:接收车辆座舱内用户发出的语音请求;对待识别语音请求进行特征提取,生成特征向量;根据输入的所述特征向量,通过声学模型输出对应的音素概率矩阵;根据音素概率矩阵,输入语音识别系统的语音解码图中搜索获得解码路径,以逐字输出语音识别文本并逐字在车载系统的图形用户界面显示;其中,所述语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得。2.根据权利要求1所述的方法,其特征在于,所述语音解码图的出弧字为根据语言模型的原始解码图的出弧词进行逐字依序分解获得,包括:遍历语言模型的原始解码图的解码路径,分别获取各原始转移弧的出弧词对应的各单字;将各单字依序作为独立的输出标签,并分别将各对应的中间节点依序串联形成拆分路径;删除所述原始转移弧,并根据各所述拆分路径生成所述语言模型的目标解码图;将所述目标解码图与语音识别系统内的预设解码图进行合并,生成语音解码图以供语音识别。3.根据权利要求2所述的方法,其特征在于,所述将各单字依序作为独立的输出标签,并分别将各对应的中间节点依序串联形成拆分路径,包括:根据单个原始转移弧的状态转移集,获取对应的起始节点S、终止节点E、入弧词、出弧词及转移概率;当所述出弧词的字数L≥2时,从原始转移弧的起始节点S开始,生成首条分支转移弧和对应的中间节点(M+1),首条分支转移弧的状态转移集包括所述入弧词、首位出弧字及所述转移概率;以中间节点(M+1)作为第二条分支转移弧的起始节点,生成第二条分支转移弧和对应的中间节点(M+2),第二条分支转移弧的状态转移集包括入弧占位符、第2位出弧字及概率占位符;从起始节点S开始,依序串联各分支转移弧及中间节点,并以原始转移弧的终止节点E作为终止节点,形成所述拆分路径。4.根据权利要求2所述的方法,其特征在于,所述将所述目标解码图与语音识别系统内的预设解码图进行合并,生成所述语音解码图之后,还包括:将所述语音解码图进行确定化和最小化,生成优化解码图。5.根据权利要求2所述的方法,其特征在于,所述遍历语言模型的原始解码图中的解码路径,分别获...

【专利技术属性】
技术研发人员:张辽
申请(专利权)人:广州小鹏汽车科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1