【技术实现步骤摘要】
语音识别方法、装置、介质及电子设备
本公开涉及语音识别领域,具体地,涉及一种语音识别方法、装置、介质及电子设备。
技术介绍
随着人工智能技术的发展,语音识别(AutomaticSpeechRecognition,ASR)技术取得了巨大的进步,并开始进入家电、通信、汽车、医疗等各个领域。其中,ASR技术常用于获取视频中音频对应的文本内容。但当视频中有杂音或者背景音乐时,ASR的识别准确度将受到影响。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。第一方面,本公开提供一种语音识别方法,包括:获取目标视频数据,所述目标视频数据包括目标音频数据和目标图像数据;提取所述目标音频数据对应的第一文本数据;提取所述目标图像数据的特征信息,并根据所述特征信息,生成用于描述所述目标图像数据的第二文本数据;根据所 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取目标视频数据,所述目标视频数据包括目标音频数据和目标图像数据;/n提取所述目标音频数据对应的第一文本数据;/n提取所述目标图像数据的特征信息,并根据所述特征信息,生成用于描述所述目标图像数据的第二文本数据;/n根据所述第二文本数据,对所述第一文本数据进行修正,得到修正后的第一文本数据。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取目标视频数据,所述目标视频数据包括目标音频数据和目标图像数据;
提取所述目标音频数据对应的第一文本数据;
提取所述目标图像数据的特征信息,并根据所述特征信息,生成用于描述所述目标图像数据的第二文本数据;
根据所述第二文本数据,对所述第一文本数据进行修正,得到修正后的第一文本数据。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标音频数据对应的第一文本数据,包括:
将所述目标音频数据输入至语音识别模型中,以得到所述目标音频数据对应的第一文本数据;
所述提取所述目标图像数据的特征信息,并根据所述特征信息,生成用于描述所述目标图像数据的第二文本数据,包括:
将所述目标图像数据输入至描述信息生成模型中,以通过所述描述信息生成模型提取所述目标图像数据的特征信息,并根据所述特征信息,生成用于描述所述目标图像数据的第二文本数据;
其中,所述语音识别模型的训练样本是通过语音合成模型生成的,所述描述信息生成模型的训练样本是通过图像生成模型生成的。
3.根据权利要求2所述的方法,其特征在于,所述语音识别模型和所述描述信息生成模型通过如下方式训练得到:
获取第一参考文本数据;
通过将所述第一参考文本数据、所述语音识别模型的输出以及所述描述信息生成模型的输出作为所述语音合成模型的输入,将所述语音合成模型的输出作为所述语音识别模型的输入,将所述第一参考文本数据作为所述语音识别模型的目标输出,将所述第一参考文本数据、所述语音识别模型的输出以及所述描述信息生成模型的输出作为所述图像生成模型的输入,将所述图像生成模型的输出作为所述描述信息生成模型的输入,将所述第一参考文本数据作为所述描述信息生成模型的目标输出的方式进行模型训练,以得到所述语音识别模型和所述描述信息生成模型。
4.根据权利要求2所述的方法,其特征在于,在进行模型训练之前,所述方法还包括:
对所述语音识别模型和所述描述信息生成模型进行预训练。
5.根据权利要求4所述的方法,其特征在于,所述对所述语音识别模型和所述描述信息生成模型进行预训练,包括:
获取第二参考文本数据;
通过将所述第二参考文本数据和所述语音识别模型的输出作为所述语音合成模型的输入,将所述语音合成模型的输出作为所述语音识别模型的输入,将所述第二参考文本数据作为所述语音识别模型的目标输出的方式对所述语音识别模型进行预训练;
通过将所述第二参考文本数据、所述描述信息生成模型的输出以及...
【专利技术属性】
技术研发人员:殷翔,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。