一种语音识别的方法、装置及计算机存储介质制造方法及图纸

技术编号:20548114 阅读:27 留言:0更新日期:2019-03-09 20:43
本发明专利技术公开了一种语音识别的方法、装置及计算机存储介质,用以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。该方法包括:在通过语音采集装置采集用户语音时,通过图像采集装置采集用户面部图像;基于用户语音及用户面部图像,用预测模型预测用户语音对应的预测语音;其中,预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的;基于预测语音,从语音数据库中匹配出与控制指令对应的语音音频标准数据;其中,语音数据库为控制指令与对应的语音音频标准数据的映射关系;通过匹配模型计算用户语音与语音音频标准数据的匹配度,当匹配度达到设定阈值时根据语音音频标准数据对应的控制指令控制智能家居设备。

【技术实现步骤摘要】
一种语音识别的方法、装置及计算机存储介质
本专利技术涉及智能家居领域,尤其是涉及一种语音识别的方法、装置及计算机存储介质。
技术介绍
随着科学技术的发展,语音识别技术在智能家居领域中的应用越来越广泛。例如,用户可以通过向智能家居设备发送语音指令,使智能家居设备工作。如,用户对智能空调说“开机”,智能空调能够通过语音识别技术识别用户的语音指令,进而执行开机动作。然而,在智能家居设备中使用语音识别技术对智能家居设备进行控制的过程中,由于用户发出的语音容易受到噪音、距离等因素的影响,从而降低了语音的识别率,进而使智能家居设备并不能完全按照用户的语音指令执行相应的动作。在现有技术中,为了提高语音识别率通常会对采集到的用户语音进行降噪处理,常见的处理方法有两种,一种是对采集到的用户语音进行分段处理(包括降噪、增加增益等),进而提取出有效的语音信息进行算法识别;另一种是使用端对端的深度学习算法对用户语音进行训练学习,得到语音识别模型,用语音识别模型识别用户语音。但这两种方法对语音识别率的提高都十分有限,且在训练语音识别模型时需要较多的时间,从而将降低用户体验。鉴于此,如何方便、快捷且有效的提高语音的识别率,成为一个亟待解决的技术问题。
技术实现思路
本专利技术提供一种语音识别的方法、装置及计算机存储介质,用以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。第一方面,为解决上述技术问题,本专利技术实施例提供的一种语音识别的方法,应用于智能家居设备,该方法的技术方案如下:在通过语音采集装置采集用户语音时,通过图像采集装置采集用户面部图像;基于所述用户语音及所述用户面部图像,用预测模型预测所述用户语音对应的预测语音;其中,所述预测模型是由每个控制指令对应的不同人群的语音及对应的标准面部图像训练得到的,使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音;基于所述预测语音,从语音数据库中匹配出与所述控制指令对应的语音音频标准数据;其中,所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系;通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度度,当所述匹配度达到设定阈值时,根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。通过智能家居设备通过语音采集装置采集用户语音时,同时通过图像采集装置采集用户面部图像;并基于采集到的用户语音及用户面部图像,用预测模型预测用户语音对应的预测语音;其中,预测模型是由每个控制指令对应的不同人群的语音及对应的标准面部图像训练得到的,使预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与同一控制指令对应的标准语音相似的语音;之后,再基于预测语音,从语音数据库中匹配出与控制指令对应的语音音频标准数据;其中,语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系;最后,通过匹配模型计算用户语音与语音音频标准数据的匹配度,当匹配度达到设定阈值时,根据语音音频标准数据对应的控制指令控制智能家居设备。从而让智能家居设备能够快捷方便的提高语音的识别率,减少因语音识别不正确而引起的误动作、提高用户体验。优选的,基于所述用户语音及所述用户面部图像,用预测模型预测所述用户语音对应的预测语音,包括:通过所述预测模型中的语音识别技术从所述用户语音中,识别出所述用户语音对应的第一控制指令集;基于所述用户面部图像从所述预测模型中的面部图像数据库中,获得与所述用户面部图像相对应的第二控制指令集;其中,所述面部图像数据库为控制指令与标准用户表情和/或标准用户唇形的映射关系;对所述第一控制指令集与所述第二控制指令集中的每条控制指令进行逐一匹配,将匹配度最高的控制指令对应的音频数据作为所述预测语音。优选的,基于所述用户面部图像从所述预测模型中的面部图像数据库中,获得与所述用户面部图像相对应的第二控制指令集,包括:从所述用户面部图像中提取对应的用户表情和/或用户唇形,获得用户表情数据和/或用户唇型数据;基于所述用户表情数据和/或用户唇型数据,从所述面部图像数据库中获得所述第二控制指令集。优选的,计算所述用户语音与所述语音音频标准数据的相似度之后,还包括:若所述相似度不能达到所述设定阈值,通过预设提示信息指示用户将重新采集用户语音;其中,所述预设提示信息为声和/或光提示信息。第二方面,本专利技术实施例提供了一种用于语音识别的装置,应用于智能家居设备,该装置包括:采集单元,用于在通过语音采集装置采集用户语音时,通过图像采集装置采集用户面部图像;预测单元,用于基于所述用户语音及所述用户面部图像,用预测模型预测所述用户语音对应的预测语音;其中,所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的,使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音;获取单元,用于基于所述预测语音,从语音数据库中匹配出与所述控制指令对应的语音音频标准数据;其中,所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系;计算单元,用于通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度,当所述匹配度达到设定阈值时,根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。优选的,所述预测单元具体用于:通过所述预测模型中的语音识别技术从所述用户语音中,识别出所述用户语音对应的第一控制指令集;基于所述用户面部图像从所述预测模型中的面部图像数据库中,获得与所述用户面部图像相对应的第二控制指令集;其中,所述面部图像数据库为控制指令与标准用户表情和/或标准用户唇形的映射关系;对所述第一控制指令集与所述第二控制指令集中的每条控制指令进行逐一匹配,将匹配度最高的控制指令对应的音频数据作为所述预测语音。优选的,所述预测单元还用于:从所述用户面部图像中提取对应的用户表情和/或用户唇形,获得用户表情数据和/或用户唇型数据;基于所述用户表情数据和/或用户唇型数据,从所述面部图像数据库中获得所述第二控制指令集。优选的,所述计算单元还用于:若所述相似度不能达到所述设定阈值,通过预设提示信息指示用户将重新采集用户语音;其中,所述预设提示信息为声和/或光提示信息。第三方面,本专利技术实施例还提供一种用于语音识别的装置,应用于智能家居设备,该装置包括:至少一个处理器,以及与所述至少一个处理器连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行如上述第一方面所述的方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,包括:所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如上述第一方面所述的方法。通过本专利技术实施例的上述一个或多个实施例中的技术方案,本专利技术实施例至少具有如下技术效果:在本专利技术提供的实施例中,通过智能家居设备通过语音采集装置采集用户语音时,同时通过图像采集装置采集用户面部图像;并基于采集到的用户语音及用户面部图像,用预测模型预测用户语音对应的预测语音;其中,预测模型是由每个控制指令对应的不同人群的本文档来自技高网...

【技术保护点】
1.一种语音识别的方法,应用于智能家居设备,其特征在于,包括:在通过语音采集装置采集用户语音时,通过图像采集装置采集用户面部图像;基于所述用户语音及所述用户面部图像,用预测模型预测所述用户语音对应的预测语音;其中,所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的,使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音;基于所述预测语音,从语音数据库中匹配出与所述控制指令对应的语音音频标准数据;其中,所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系;通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度,当所述匹配度达到设定阈值时,根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。

【技术特征摘要】
1.一种语音识别的方法,应用于智能家居设备,其特征在于,包括:在通过语音采集装置采集用户语音时,通过图像采集装置采集用户面部图像;基于所述用户语音及所述用户面部图像,用预测模型预测所述用户语音对应的预测语音;其中,所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的,使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音;基于所述预测语音,从语音数据库中匹配出与所述控制指令对应的语音音频标准数据;其中,所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系;通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度,当所述匹配度达到设定阈值时,根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。2.如权利要求1所述的方法,其特征在于,基于所述用户语音及所述用户面部图像,用预测模型预测所述用户语音对应的预测语音,包括:通过所述预测模型中的语音识别技术从所述用户语音中,识别出所述用户语音对应的第一控制指令集;基于所述用户面部图像从所述预测模型中的面部图像数据库中,获得与所述用户面部图像相对应的第二控制指令集;其中,所述面部图像数据库为控制指令与标准用户表情和/或标准用户唇形的映射关系;对所述第一控制指令集与所述第二控制指令集中的每条控制指令进行逐一匹配,将匹配度最高的控制指令对应的音频数据作为所述预测语音。3.如权利要求2所述的方法,其特征在于,基于所述用户面部图像从所述预测模型中的面部图像数据库中,获得与所述用户面部图像相对应的第二控制指令集,包括:从所述用户面部图像中提取对应的用户表情和/或用户唇形,获得用户表情数据和/或用户唇型数据;基于所述用户表情数据和/或用户唇型数据,从所述面部图像数据库中获得所述第二控制指令集。4.如权利要求1-3任一权项所述的方法,其特征在于,计算所述用户语音与所述语音音频标准数据的相似度之后,还包括:若所述相似度不能达到所述设定阈值,通过预设提示信息指示用户将重新采集用户语音;其中,所述预设提示信息为声和/或光提示信息。5.一种语音识别的装置,应用于智能家居设备,其特征在于,包括:采集单元,用于在通过语音采集装置采集用户语音时,通过图像采集装置采集用户...

【专利技术属性】
技术研发人员:刘健军王慧君秦萍
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1