一种关键字识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号：37374478 阅读：9 留言：0更新日期：2023-04-27 07:18

本申请公开了一种关键字识别方法及装置、电子设备、存储介质，该方法包括：获取音频输入装置采集的音频数据，并获取摄像装置采集的图像数据；根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果；根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字。如此，在进行语音识别时将输入信号源扩展为二维信号源，第一信号源为音频数据，第二信号源为图像数据，唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字，二者相辅相成，互为补充，提高关键字识别准确率，从而提高人机交互效率。从而提高人机交互效率。从而提高人机交互效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种关键字识别方法及装置、电子设备、存储介质

[0001]本申请涉及语音控制技术，尤其涉及一种关键字识别方法及装置、电子设备、存储介质。

技术介绍

[0002]语音控制技术越来越广泛地应用在智能设备，极大的提高了人机交互的便捷度和效率。其中语音关键词识别主要采用自然语言处理(Natural language processing，NLP)技术对音频数据进行关键词匹配，得到关键词识别的结果。
[0003]语音关键词识别存在如下两方面的问题：
[0004]1)声音非常容易受到周围环境以及障碍物的干扰，导致采集到的音频数据质量较差，影响关键词的识别准确率；2)声音本质上是一种波，受性别、年龄以及地域等因素的影响，不同人对相同词语的声波差异明显，同样会影响关键词的识别准确率。
[0005]因此，提高语音关键字识别准确率，是语音唤醒技术长期面临的一个难题。

技术实现思路

[0006]本申请实施例期望提供一种关键字识别方法及装置、电子设备、存储介质。
[0007]本申请的技术方案是这样实现的：
[0008]第一方面，提供了一种关键字识别方法，包括：
[0009]获取音频输入装置采集的音频数据，并获取摄像装置采集的图像数据；
[0010]根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果；
[0011]根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；
[0012]根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关...

【技术保护点】

【技术特征摘要】
1.一种关键字识别方法，其特征在于，所述方法包括：获取音频输入装置采集的音频数据，并获取摄像装置采集的图像数据；根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果；根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字。2.根据权利要求1所述的方法，其特征在于，所述语音关键字识别结果包括关键字及其置信度，所述唇语关键字识别结果包括关键字及其置信度；所述根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字，包括：对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算，得到加权置信度；根据所述加权置信度，确定预定关键字。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据当前场景的坏境参数进行场景识别，得到场景识别结果；根据所述场景识别结果，确定所述语音关键字识别结果中关键字的第一权重值，以及所述唇语关键字识别结果中关键字的第二权重值。4.根据权利要求3所述的方法，其特征在于，所述坏境参数包括：环境音参数和环境亮度参数；所述根据所述场景识别结果，确定所述语音关键字识别结果中关键字的第一权重值，以及所述唇语关键字识别结果中关键字的第二权重值，包括：所述场景识别结果表征当前场景为嘈杂场景和亮光场景时，降低所述第一权重值，提高所述第二权重值；所述场景识别结果表征当前场景为安静场景和暗光场景时，提高所述第一权重值，降低所述第二权重值。5.根据权利要求2所述的方法，其特征在于，所述根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字，包括：获取所述语音关键字识别结果中的第一置信度；所述第一置信度大于或者等于第一置信度阈值，将所述第一置信度对应的关键字作为所述预定关键字；获取所述唇语关键字识别结果中的第二置信度；所述第一置信度小于所述第一置信度阈值，且所述第二置信度大于或者等于第二置信度阈值，将所述第二置信度对应的关键字作为所述预定关键字；所述第一置信度小于所述第一置信度阈值，且所述第二置信度小于所述...

【专利技术属性】
技术研发人员：汪迎菊，
申请(专利权)人：哲库科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人