【技术实现步骤摘要】
一种语音识别方法、装置和电子设备
本专利技术涉及数据处理
,特别是涉及一种语音识别方法、装置和电子设备。
技术介绍
近年来,录音设备作为专业领域的产品,发展迅速并进入大众领域。记者、学生、教师等各种群体,通常都需要录音设备进行录音。此外各种电视节目、电影、音乐等录制也需要使用到录音设备。在使用录音设备录音过程中或录音结束后,用户可能需要对录音得到的音频数据进行语音识别,确定对应的语音识别文本(俗称转写)。然而,很对场景中如培训讲座、大型会议上往往会出现专业领域的字词,且这些专业领域的词语还不乏生疏字词。针对于在这些场景中录音得到的音频数据,现有语音识别准确度低。
技术实现思路
本专利技术实施例提供一种语音识别方法,以提高语音识别的准确率。相应的,本专利技术实施例还提供了一种语音识别装置和一种电子设备,用以保证上述方法的实现及应用。为了解决上述问题,本专利技术实施例公开了一种语音识别方法,具体包括:获取目标音频数据和与目标音频数据关联的目标图像数据,所述目标图像数据是录音设备在 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取目标音频数据和与目标音频数据关联的目标图像数据,所述目标图像数据是录音设备在录制目标音频数据过程中采集的;/n依据所述目标图像数据对所述目标音频数据进行语音识别,确定对应的语音识别文本信息。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取目标音频数据和与目标音频数据关联的目标图像数据,所述目标图像数据是录音设备在录制目标音频数据过程中采集的;
依据所述目标图像数据对所述目标音频数据进行语音识别,确定对应的语音识别文本信息。
2.根据权利要求1所述的方法,其特征在于,所述依据所述目标图像数据对所述目标音频数据进行语音识别,确定对应的语音识别文本信息,包括:
对所述目标图像数据进行文本识别,确定对应的图像文本信息;
依据所述图像文本信息对所述目标音频数据进行语音识别,确定对应的语音识别文本信息。
3.根据权利要求2所述的方法,其特征在于,所述目标图像数据包括一个图像帧,
所述依据所述图像文本信息对所述目标音频数据进行语音识别,确定对应的语音识别文本信息,包括:
确定所述目标图像数据对应的目标时间戳;
依据所述图像文本信息,对目标时间戳之后的目标音频数据进行语音识别,确定对应的语音识别文本信息。
4.根据权利要求2所述的方法,其特征在于,所述依据所述图像文本信息对所述目标音频数据进行语音识别,确定对应的语音识别文本信息,包括:
依据所述目标图像数据包含的所有图像帧的图像文本信息,对完整的所述目标音频数据进行语音识别,确定对应的语音识别文本信息。
5.根据权利要求2所述的方法,其特征在于,所述依据所述图像文本信息对所述目标音频数据进行语音识别,确定对应的语音识别文本信息,包括:
从所述图像文本信息中提取关键词;
对所述目标音频数据进行特征提取并依据提取的特征信息确定所述音频数据对应的音节,将所述目标音频数据对应的音节与所述关键词匹配;
若存在与所述目标音频数据对应的音节匹配的所述关键词,则将匹配的关键词作为对应音节的语音识别文本信息...
【专利技术属性】
技术研发人员:崔文华,路呈璋,李健涛,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。