语音识别方法、装置和电子设备制造方法及图纸

技术编号：27529042 阅读：19 留言：0更新日期：2021-03-03 11:02

本公开提供了一种语音识别方法、装置和电子设备，上述语音识别方法中，在用户进行语音输入时，可以在采集音频的同时，对用户的唇部进行拍摄，然后基于当前帧图像和历史帧图像的至少一个第一唇部区域，获取用户在当前帧图像中的第二唇部区域；并行地，可以基于当前帧音频和历史帧音频的至少一个第一语音特征，获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域，获取当前帧的音素概率分布，进而可以根据上述音素概率分布，获得当前帧音频的语音识别结果，从而可以实现将视频的唇部区域和音频的语音特征相结合，来进行语音识别，大大提高了语音识别在噪声场景下的识别效果。识别效果。识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置和电子设备

[0001]本公开涉及语音识别
，尤其涉及一种语音识别方法、装置和电子设备。

技术介绍

[0002]随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别技术，也被称为自动语音识别(automatic speech recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。

技术实现思路

[0003]相关技术中，语音识别方案通常包括以下步骤：语音信号降噪、特征提取、音素分类和解码，但是这种语音识别方案在高噪声(即低信噪比)的场景下，语音识别的效果较差。
[0004]为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音识别方法、装置和电子设备。
[0005]本公开第一方面的实施例提供了一种语音识别方法，包括：获取预设时间段内的视频流和音频流，所述预设时间段内的视频流包括...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，包括：获取预设时间段内的视频流和音频流，所述预设时间段内的视频流包括当前帧图像和所述当前帧图像之前的历史帧图像，所述预设时间段内的音频流包括当前帧音频和所述当前帧音频之前的历史帧音频；获取所述历史帧图像的至少一个第一唇部区域，并基于当前帧图像和所述至少一个第一唇部区域，确定用户在所述当前帧图像中的第二唇部区域；获取所述历史帧音频的至少一个第一语音特征，并基于当前帧音频和所述至少一个第一语音特征，获取所述当前帧音频的第二语音特征；其中，所述当前帧图像中的第二唇部区域与所述第二语音特征对应；根据所述至少一个第一唇部区域、所述第二唇部区域、所述至少一个第一语音特征和所述第二语音特征，获取当前帧的音素概率分布；根据所述音素概率分布，获得所述当前帧音频的语音识别结果。2.根据权利要求1所述的方法，其中，所述获取预设时间段内的视频流和音频流之前，还包括：对采集到的音频流进行语音端点检测；根据所述语音端点检测的结果，划分所述预设时间段。3.根据权利要求2所述的方法，其中，所述根据所述语音端点检测的结果，划分所述预设时间段包括：从所述语音端点检测的结果中，获得采集到的音频流中每段音频流的起始时间点和与所述起始时间点对应的终止时间点；将所述起始时间点作为所述预设时间段的起始时刻，将所述终止时间点作为所述预设时间段的终止时刻。4.根据权利要求1所述的方法，其中，所述基于当前帧图像和所述至少一个第一唇部区域，确定用户在所述当前帧图像中的第二唇部区域包括：对所述当前帧图像进行人脸检测，定位所述用户的脸部区域；根据所述至少一个第一唇部区域，对所述用户的脸部区域进行唇部检测，定位所述用户在所述当前帧图像中的第二唇部区域；从所述当前帧图像中截取所述第二唇部区域。5.根据权利要求1所述的方法，其中，所述根据所述音素概率分布，获得所述当前帧音频的语音识别结果包括：根据所述音素概率分布，通过解码器进行识别，获得所述当前帧音频的语音识别结果。6.根据权利要求1-5任意一项所述的方法，其中，所述根据所述至...

【专利技术属性】
技术研发人员：宫一尘，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人