语音识别的方法及装置制造方法及图纸

技术编号:14056075 阅读:111 留言:0更新日期:2016-11-27 01:09
本发明专利技术公开了一种语音识别的方法及装置,其中,该方法获取用户当前语音的语音识别信息,以及基于与用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息;根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。通过本发明专利技术解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题,进而提高了语音识别的准确性。

【技术实现步骤摘要】

本专利技术涉及通信领域,具体而言,涉及一种语音识别的方法及装置
技术介绍
语音识别技术随着计算机和相关软硬件技术的发展,已越来越多的应用在各个领域,其识别率也在不断的提高。在环境安静、发音标准等特定条件下,目前应用在语音识别输入文字系统的识别率已经达到95%以上。常规语音识别技术已比较成熟,针对移动终端的语音识别,由于语音质量相对于普通语音识别场景相对较差,因此语音识别效果受到限制。这里语音质量很差包括如下的原因,例如客户端有背景噪声、客户端语音采集设备、通话设备的噪声、通信线路的噪声和干扰、还有本身说话带有口音或者使用了方言、说话人本身的说话含糊或者不清楚等。所有这些因素都可能造成语音识别效果变差。其识别率受到很多因素的影响,针对相关技术中语音识别率低而导致的用户体验度差的问题,目前尚未提出有效的解决方案。在车上或噪声较大、发音不标准的情况下,其识别率将大打折扣,以至于无法达到真正实用目的。其正确识别率低,影响精确操控,效果不够理想。若能采用其它方法来辅助判断以提高其语音识别的准确率,那么语音识别的实用性将显著提高。人类的语言认知过程是一个多通道的感知过程。在人与人日常交流的过程中,通过声音来感知他人讲话的内容,在喧闹的环境或对方发音模糊不清时,还需要眼睛观察其口型,表情等的变化,才能准确地理解对方所讲的内容。现行的语音识别系统忽略了语言感知的视觉特性这一面,仅仅利用了单一的听觉特性,使得现有的语音识别系统在噪声环境或多话者条件下,其识别率都显著下降,降低了语音识别的实用性,应用范围也受限制。针对相关技术中,仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题,还未提出有效的解决方案。
技术实现思路
本专利技术提供了一种语音识别的方法及装置,以至少解决相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高的问题。根据本专利技术的一个方面,提供了一种语音识别的方法,包括:获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息;根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音
的最终识别结果。进一步地,根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果包括:根据所述语音识别信息获取所述用户当前语音对应的一个或者多个第一候选词汇;根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇;根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果;或者,根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。进一步地,根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果包括:从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇,将所述第一特定词汇作为所述用户当前语音的最终识别结果。进一步地,根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果包括:从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇,将所述第二特定词汇作为所述用户当前语音的最终识别结果。进一步地,基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息包括:获取用于指示所述用户当前状态的图像;根据所述图像获取图像特征信息;根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇,将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。进一步地,根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇包括:在预定的图像库中查找与所述图像特征信息相似度最高的特定图像;根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系,获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。进一步地,所述用户当前状态包括以下至少之一:所述用户的唇形运动状态、所述用户的喉部振动状态、所述用户的脸部运动状态、所述用户的手势运动状态。进一步地,获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息之前包括:判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。根据本专利技术的另一个方面,提供了一种语音识别的装置,所述装置包括:获取模块,用于获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息;确定模块,用于根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。进一步地,所述确定模块包括:第一获取单元,用于根据所述语音识别信息获取所
述用户当前语音对应的一个或者多个第一候选词汇;第二获取单元,用于根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇;确定单元,用于根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果;或者,根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。进一步地,所述确定单元还用于从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇,将所述第一特定词汇作为所述用户当前语音的最终识别结果。进一步地,所述确定单元还用于从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇,将所述第二特定词汇作为所述用户当前语音的最终识别结果。进一步地,所述获取模块还包括:第三获取单元,用于获取用于指示所述用户当前状态的图像;第四获取单元,用于根据所述图像获取图像特征信息;第五获取单元,用于根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇,将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。进一步地,所述第五获取单元还包括:查找子单元,用于在预定的图像库中查找与所述图像特征信息相似度最高的特定图像;获取子单元,用于根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系,获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。进一步地,所述用户当前状态包括以下至少之一:所述用户的唇形运动状态、所述用户的喉部振动状态、所述用户的脸部运动状态、所述用户的手势运动状态。进一步地,所述装置还包括:判定模块,用于判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。根据本专利技术的另一个方面,还提供了一种终端,包括处理器,所述处理器用于获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息;根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。通过本专利技术,获取用户当前语音的语音识别信息,以及基于与用户当前语音对应的用户当前状态获取该语音识别信息的辅助识别信息;根据语音识别信息和辅助识别信息确定用户当前语音的最终识别结果。解决了相关技术中仅通过用户的声音获取用户的讲话内容导致语音识别的准确度不高本文档来自技高网
...
语音识别的方法及装置

【技术保护点】
一种语音识别的方法,其特征在于,包括:获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息;根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。

【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息;根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果。2.根据权利要求1所述的方法,其特征在于,根据所述语音识别信息和所述辅助识别信息确定所述用户当前语音的最终识别结果包括:根据所述语音识别信息获取所述用户当前语音对应的一个或者多个第一候选词汇;根据所述辅助识别信息获取所述用户当前语音对应的词汇类别或者一个或者多个第二候选词汇;根据所述一个或者多个第一候选词汇和所述词汇类别确定所述用户当前语音的最终识别结果;或者,根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果。3.根据权利要求2所述的方法,其特征在于,根据所述一个或者多个第一候选词汇和所述词汇类型确定所述用户当前语音的最终识别结果包括:从所述一个或者多个第一候选词汇中选择符合所述词汇类别的第一特定词汇,将所述第一特定词汇作为所述用户当前语音的最终识别结果。4.根据权利要求2所述的方法,其特征在于,根据所述一个或者多个第一候选词汇和所述一个或者多个第二候选词汇确定所述用户当前语音的最终识别结果包括:从所述一个或者多个第二候选词汇中选择与所述一个或者多个第一候选词汇相似度高的第二特定词汇,将所述第二特定词汇作为所述用户当前语音的最终识别结果。5.根据权利要求1所述的方法,其特征在于,基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息包括:获取用于指示所述用户当前状态的图像;根据所述图像获取图像特征信息;根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇,将所述词汇类别和/或所述一个或者多个候选词汇作为所述辅助识别信息。6.根据权利要求5所述的方法,其特征在于,根据所述图像特征信息获取与所述图像特征信息对应的词汇类别和/或一个或者多个候选词汇包括:在预定的图像库中查找与所述图像特征信息相似度最高的特定图像;根据预设的图像与词汇类别或者一个或者多个候选词汇的对应关系,获取与所述特定图像对应的词汇类别或者一个或者多个候选词汇。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述用户当前状态包括以下至少之一:所述用户的唇形运动状态、所述用户的喉部振动状态、所述用户的脸部运动状态、所述用户的手势运动状态。8.根据权利要求1至7中任一项所述的方法,其特征在于,获取用户当前语音的语音识别信息,以及基于与所述用户当前语音对应的用户当前状态获取所述语音识别信息的辅助识别信息之前包括:判定基于所述语音识别信息确定所述用户当前语音的最终识别结果的正确率小于预定阈值。9.一种语...

【专利技术属性】
技术研发人员:罗炜贾鑫
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1