一种关键字识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号:37374478 阅读:9 留言:0更新日期:2023-04-27 07:18
本申请公开了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。从而提高人机交互效率。从而提高人机交互效率。

【技术实现步骤摘要】
一种关键字识别方法及装置、电子设备、存储介质


[0001]本申请涉及语音控制技术,尤其涉及一种关键字识别方法及装置、电子设备、存储介质。

技术介绍

[0002]语音控制技术越来越广泛地应用在智能设备,极大的提高了人机交互的便捷度和效率。其中语音关键词识别主要采用自然语言处理(Natural language processing,NLP)技术对音频数据进行关键词匹配,得到关键词识别的结果。
[0003]语音关键词识别存在如下两方面的问题:
[0004]1)声音非常容易受到周围环境以及障碍物的干扰,导致采集到的音频数据质量较差,影响关键词的识别准确率;2)声音本质上是一种波,受性别、年龄以及地域等因素的影响,不同人对相同词语的声波差异明显,同样会影响关键词的识别准确率。
[0005]因此,提高语音关键字识别准确率,是语音唤醒技术长期面临的一个难题。

技术实现思路

[0006]本申请实施例期望提供一种关键字识别方法及装置、电子设备、存储介质。
[0007]本申请的技术方案是这样实现的:
[0008]第一方面,提供了一种关键字识别方法,包括:
[0009]获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
[0010]根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
[0011]根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;
[0012]根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
[0013]第二方面,提供了一种关键字识别装置,包括:
[0014]第一获取单元,用于获取音频输入装置采集的音频数据,并将所述音频数据发送给语音识别单元;
[0015]第二获取单元,用于获取摄像装置采集的图像数据,并将所述图像数据发送给图像识别单元;
[0016]所述图像识别单元,用于根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,并将所述唇语关键字识别结果发送给语音识别单元;
[0017]所述语音识别单元,根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
[0018]第三方面,提供了一种电子设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
[0019]其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。
[0020]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。
[0021]本申请实施例中提供了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。
附图说明
[0022]图1为本申请实施例中关键字识别方法的第一流程示意图;
[0023]图2为本申请实施例中关键字识别方法的第二流程示意图;
[0024]图3为本申请实施例提供的关键字识别系统的结构框架示意图;
[0025]图4为本申请实施例中轻量型ISP的处理流程示意图;
[0026]图5为本申请实施例中NPU的处理流程示意图;
[0027]图6为本申请实施例中关键字识别装置的组成结构示意图;
[0028]图7为本申请实施例中电子设备的组成结构示意图。
具体实施方式
[0029]为了能够更加详尽地了解本申请实施例的特点与
技术实现思路
,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
[0030]图1为本申请实施例中关键字识别方法的第一流程示意图,如图1所示,该方法具体可以包括:
[0031]步骤101:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
[0032]音频输入装置负责采集音频模拟信号,并将音频模拟信号转换为数字信号,对数字信号进行语音关键字识别。在一些实施例中,音频输入装置为麦克风。
[0033]摄像装置负责采集包含人脸的图像数据。在一些实施例中,摄像装置可以为一种低功耗的常开式摄像头(Always On camera,AON camera),AON camera功能的基本工作原理为:设备开机之后,自动启动AON camera功能,控制图像传感器实时采集图像,并进行图像检测和识别,根据图像检测结果进行对应的处理。在一些实施例中,摄像装置还可以通过预设控制指令控制开启或关闭。
[0034]为了降低功耗和减少传输带宽以及后续的图像处理时延,在一些实施例中,图像数据一种单色图像数据(例如mono格式的图像数据)。示例性的,摄像装置采用较低帧率和较低分辨率来采集图像数据,并输出mono格式的图像数据。
[0035]步骤102:根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
[0036]唇语识别是使用机器视觉技术从一系列图像中识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,在唇语识别过程中,口型与发音,发音与关键字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出关键字的置信度。
[0037]示例性的,利用唇语识别模型对图像数据进行唇语关键字识别,得到唇语关键字识别结果;其中,唇语识别模型可以为神经网络模型。实际应用中,获取关键字对应的样本图像数据;利用样本图像数据训练唇语识别模型;在使用阶段,加载识别预定关键字的唇语识别模型进行唇语关键字识别。这里,样本图像数据可以是从唇语图像数据库中获取到的。
[0038]示例性的,在一些实施例中,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:对所述图像数据进行预处理,以减小所述图像数据的数据量;利用预设关键字的唇语识别模型对预处理后的图像数据进行唇语关键字识别,得到所述唇语关键字识别结果。
[0039]在不影响检测精度的基础上,为了加快检测速率减小功耗,对图像进行预处理,以减小图像数据量,提高图像质量,有利于后续唇语关键字识别。在一些实施例中,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:对所述图像数据依次进行图像裁剪、数字增益、镜头阴影校正、降噪、Gamma校正和下采样处理,得到预处理后的图像数据;利用预设关键字的唇语识别模型对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键字识别方法,其特征在于,所述方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。2.根据权利要求1所述的方法,其特征在于,所述语音关键字识别结果包括关键字及其置信度,所述唇语关键字识别结果包括关键字及其置信度;所述根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字,包括:对所述语音关键字识别结果和所述唇语关键字识别结果中相同关键字的置信度进行加权运算,得到加权置信度;根据所述加权置信度,确定预定关键字。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据当前场景的坏境参数进行场景识别,得到场景识别结果;根据所述场景识别结果,确定所述语音关键字识别结果中关键字的第一权重值,以及所述唇语关键字识别结果中关键字的第二权重值。4.根据权利要求3所述的方法,其特征在于,所述坏境参数包括:环境音参数和环境亮度参数;所述根据所述场景识别结果,确定所述语音关键字识别结果中关键字的第一权重值,以及所述唇语关键字识别结果中关键字的第二权重值,包括:所述场景识别结果表征当前场景为嘈杂场景和亮光场景时,降低所述第一权重值,提高所述第二权重值;所述场景识别结果表征当前场景为安静场景和暗光场景时,提高所述第一权重值,降低所述第二权重值。5.根据权利要求2所述的方法,其特征在于,所述根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字,包括:获取所述语音关键字识别结果中的第一置信度;所述第一置信度大于或者等于第一置信度阈值,将所述第一置信度对应的关键字作为所述预定关键字;获取所述唇语关键字识别结果中的第二置信度;所述第一置信度小于所述第一置信度阈值,且所述第二置信度大于或者等于第二置信度阈值,将所述第二置信度对应的关键字作为所述预定关键字;所述第一置信度小于所述第一置信度阈值,且所述第二置信度小于所述...

【专利技术属性】
技术研发人员:汪迎菊
申请(专利权)人:哲库科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1