一种语音识别的方法、装置及计算机存储介质制造方法及图纸

技术编号：20548114 阅读：27 留言：0更新日期：2019-03-09 20:43

本发明专利技术公开了一种语音识别的方法、装置及计算机存储介质，用以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。该方法包括：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；基于用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的；基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为控制指令与对应的语音音频标准数据的映射关系；通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时根据语音音频标准数据对应的控制指令控制智能家居设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别的方法、装置及计算机存储介质
本专利技术涉及智能家居领域，尤其是涉及一种语音识别的方法、装置及计算机存储介质。
技术介绍
随着科学技术的发展，语音识别技术在智能家居领域中的应用越来越广泛。例如，用户可以通过向智能家居设备发送语音指令，使智能家居设备工作。如，用户对智能空调说“开机”，智能空调能够通过语音识别技术识别用户的语音指令，进而执行开机动作。然而，在智能家居设备中使用语音识别技术对智能家居设备进行控制的过程中，由于用户发出的语音容易受到噪音、距离等因素的影响，从而降低了语音的识别率，进而使智能家居设备并不能完全按照用户的语音指令执行相应的动作。在现有技术中，为了提高语音识别率通常会对采集到的用户语音进行降噪处理，常见的处理方法有两种，一种是对采集到的用户语音进行分段处理(包括降噪、增加增益等)，进而提取出有效的语音信息进行算法识别；另一种是使用端对端的深度学习算法对用户语音进行训练学习，得到语音识别模型，用语音识别模型识别用户语音。但这两种方法对语音识别率的提高都十分有限，且在训练语音识别模型时需要较多的时间，从而将降低用户体验。鉴于此，如何方便、快捷且有效的提高语音的识别率，成为一个亟待解决的技术问题。
技术实现思路
本专利技术提供一种语音识别的方法、装置及计算机存储介质，用以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。第一方面，为解决上述技术问题，本专利技术实施例提供的一种语音识别的方法，应用于智能家居设备，该方法的技术方案如下：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；基于所述用户语音及所述用...

【技术保护点】
1.一种语音识别的方法，应用于智能家居设备，其特征在于，包括：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；基于所述预测语音，从语音数据库中匹配出与所述控制指令对应的语音音频标准数据；其中，所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系；通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度，当所述匹配度达到设定阈值时，根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。

【技术特征摘要】
1.一种语音识别的方法，应用于智能家居设备，其特征在于，包括：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；基于所述预测语音，从语音数据库中匹配出与所述控制指令对应的语音音频标准数据；其中，所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系；通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度，当所述匹配度达到设定阈值时，根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。2.如权利要求1所述的方法，其特征在于，基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音，包括：通过所述预测模型中的语音识别技术从所述用户语音中，识别出所述用户语音对应的第一控制指令集；基于所述用户面部图像从所述预测模型中的面部图像数据库中，获得与所述用户面部图像相对应的第二控制指令集；其中，所述面部图像数据库为控制指令与标准用户表情和/或标准用户唇形的映射关系；对所述第一控制指令集与所述第二控制指令集中的每条控制指令进行逐一匹配，将匹配度最高的控制指令对应的音频数据作为所述预测语音。3.如权利要求2所述的方法，其特征在于，基于所述用户面部图像从所述预测模型中的面部图像数据库中，获得与所述用户面部图像相对应的第二控制指令集，包括：从所述用户面部图像中提取对应的用户表情和/或用户唇形，获得用户表情数据和/或用户唇型数据；基于所述用户表情数据和/或用户唇型数据，从所述面部图像数据库中获得所述第二控制指令集。4.如权利要求1-3任一权项所述的方法，其特征在于，计算所述用户语音与所述语音音频标准数据的相似度之后，还包括：若所述相似度不能达到所述设定阈值，通过预设提示信息指示用户将重新采集用户语音；其中，所述预设提示信息为声和/或光提示信息。5.一种语音识别的装置，应用于智能家居设备，其特征在于，包括：采集单元，用于在通过语音采集装置采集用户语音时，通过图像采集装置采集用户...

【专利技术属性】
技术研发人员：刘健军，王慧君，秦萍，
申请(专利权)人：珠海格力电器股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人