语音识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号：26532790 阅读：29 留言：0更新日期：2020-12-01 14:16

一种语音识别方法、装置、存储介质及电子设备，通过获取当前时间点的语音帧和当前时间点的视频帧，然后提取视频帧中的视频特征信息，其中视频特征信息用于表征当前用户对应语音帧的语音动作，并且基于语音帧和视频特性信息确定语音帧的识别结果，即结合语音帧的信息和用户对应该语音帧的语音动作来识别该语音帧，不仅提高了语音帧的识别结果的准确性，而且针对每一帧语音进行识别，提高了语音交互的相应时效性，实时识别用户语音，提高了语音交互的体验效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、存储介质及电子设备
本申请涉及语音
，尤其涉及一种语音识别方法、装置、存储介质及电子设备。
技术介绍
目前，对于信号处理系统来说，例如多模态语音识别系统，通常是将待处理信号完全接收后，再进行处理。例如，当待处理信号为音频信号时，对于多模态语音识别系统来说，通常是在录制完一段音频信号之后，再进行语音识别处理。这语音识别的结果不能满足实时性的要求。因此，如何提高信号处理的实时性成为亟待解决的问题。
技术实现思路
为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种语音识别方法、装置、存储介质及电子设备，实时识别用户语音，提高了语音交互的体验效果。根据本申请的一个方面，提供了一种语音识别方法，包括：获取当前时间点的语音帧；获取所述当前时间点的视频帧；提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果。根据本申请的一个方面，提供了一种语音识别装置，包括...

【技术保护点】
1.一种语音识别方法，包括：/n获取当前时间点的语音帧；/n获取所述当前时间点的视频帧；/n提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及/n基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果。/n

【技术特征摘要】
1.一种语音识别方法，包括：
获取当前时间点的语音帧；
获取所述当前时间点的视频帧；
提取所述视频帧中的视频特征信息；其中所述视频特征信息用于表征当前用户对应所述语音帧的语音动作；以及
基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果。

2.根据权利要求1所述的识别方法，其中，所述基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果包括：
将所述语音帧解析为至少一个音素信息；
基于所述至少一个音素信息和所述视频特征信息，得到每个音素信息的概率；
根据所述每个音素信息的概率，计算得到多个语音结果的概率；其中所述多个语音结果由所述至少一个音素信息中的部分或全部音素信息组合得到；以及
当所述多个语音结果中存在一个语音结果的概率满足预设条件时，将该语音结果作为识别结果。

3.根据权利要求2所述的识别方法，其中，基于所述至少一个音素信息和所述视频特征信息，得到每个音素信息的概率包括：
确定所述至少一个音素信息中的单个音素信息与对应的标准音素语音之间的第一相似度，得到多个第一相似度；
确定所述视频特征信息与每个音素的标准视频特性信息之间的第二相似度，得到多个第二相似度；以及
将每个音素的所述第一相似度和所述第二相似度加权，得到所述每个音素信息的概率。

4.根据权利要求2所述的识别方法，其中，所述预设条件包括：该语音结果的概率大于预设的概率阈值；和/或该语音结果的概率为所述多个语音结果的概率中的最大值。

5.根据权利要求1至4中任一项所述的识别方法，其中，所述基于所述语音帧和所述视频特征信息，确定所述语音帧的识别结果包括：
将所述语音帧和所述视频特征信息输入第一神经网络模型，得到所述语音帧的识别结果。

6.根据权利要求1所述的识别方法，其中，在所述获取当前时间点的语音帧之前...

【专利技术属性】
技术研发人员：宫一尘，
申请(专利权)人：北京地平线信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人