【技术实现步骤摘要】
语音识别方法、电子设备和存储装置
本申请涉及语音识别
,特别是涉及一种语音识别方法、电子设备和存储装置。
技术介绍
语音识别即对输入的语音数据进行识别,以得到与语音对应的识别文本内容。语音识别技术的应用,极大地促进了人们的输入效率,使得人们输入信息更加方便,快捷。然而,较高的语音识别准确度依赖于说话人能够说出清楚的语音,对于吐字不清的人,例如是脑中风的后遗症患者,由于他们发音模糊不清,会导致语音识别的准确度不高,使得他们无法正常使用语音识别技术,极大的影响了用户的体验,也限制了语音识别技术的应用。有鉴于此,提高语音识别的准确度具有极其重大的意义。
技术实现思路
本申请主要解决的技术问题是提供一种语音识别方法、电子设备和存储装置,能够提高语音识别的准确度。为了解决上述问题,本申请第一方面提供了一种语音识别方法,该方法包括:采集用户说话时的待识别数据;其中,待识别数据包括音频数据和用户嘴部的视频数据;利用视频数据,提取到第一特征表示,并利用音频数据,提取到第二特征表示;对待识别数据执行若 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n采集用户说话时的待识别数据;其中,所述待识别数据包括音频数据和所述用户嘴部的视频数据;/n利用所述视频数据,提取到第一特征表示,并利用所述音频数据,提取到第二特征表示;/n对所述待识别数据执行若干次以下识别步骤:利用所述第一特征表示、所述第二特征表示和上次识别的预测文字,获取所述视频数据和所述音频数据两者的融合上下文表示,并利用所述融合上下文表示进行预测,得到本次识别的预测文字;/n将若干次识别的预测文字的组合,作为所述待识别数据的最终识别文本。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
采集用户说话时的待识别数据;其中,所述待识别数据包括音频数据和所述用户嘴部的视频数据;
利用所述视频数据,提取到第一特征表示,并利用所述音频数据,提取到第二特征表示;
对所述待识别数据执行若干次以下识别步骤:利用所述第一特征表示、所述第二特征表示和上次识别的预测文字,获取所述视频数据和所述音频数据两者的融合上下文表示,并利用所述融合上下文表示进行预测,得到本次识别的预测文字;
将若干次识别的预测文字的组合,作为所述待识别数据的最终识别文本。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一特征表示、所述第二特征表示和上次识别的预测文字,获取所述视频数据和所述音频数据两者的融合上下文表示,包括:
利用所述第一特征表示和上次识别的预测文字,获取所述视频数据的第一上下文表示;
利用所述第二特征表示、上次识别的预测文字和所述第一上下文表示,获取所述音频数据的第二上下文表示;
利用所述第一上下文表示和第二上下文表示,获取所述融合上下文表示。
3.根据权利要求2所述的方法,其特征在于,所述视频数据包括至少一个嘴部图像,所述嘴部图像对应提取有所述第一特征表示;所述利用所述第一特征表示和上次识别的预测文字,获取所述视频数据的第一上下文表示,包括:
基于第一注意力机制,利用所述嘴部图像的第一特征表示、上次识别的预测文字,获取所述嘴部图像的第一注意力值;
利用所述嘴部图像的第一注意力值对对应所述嘴部图像的第一特征表示进行加权,得到所述第一上下文表示。
4.根据权利要求2所述的方法,其特征在于,所述音频数据包括至少一个音频帧,所述音频帧对应提取有所述第二特征表示;所述利用所述第二特征表示、上次识别的预测文字和所述第一上下文表示,获取所述音频数据的第二上下文表示,包括:
基于第二注意力机制,利用所述音频帧的第二特征表示、上次识别的预测文字和所述第一上下文表示,获取所述音频帧的第二注意力值;
利用所述音频帧的第二注意力值对对应所述音频帧的第二特征表示进行加权,得到所述第二上下文表示。
5.根据权利要求1所述的方法,其特征在于,所述利用所述音频数据,提取到第二特征表示,包括:
对所述音频数据进行发音纠正,得到符合...
【专利技术属性】
技术研发人员:王孟之,万根顺,高建清,刘聪,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。