【技术实现步骤摘要】
基于双模态模型的语音识别方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于双模态模型的语音识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]在AI(Artificial Intelligence,人工智能)视频审批面谈的业务申请中,由于全程是AI在和客户进行对话,因此ASR(Automatic Speech Recognition,自动语音识别)的准确率对于AI能否正确识别客户意图起到至关重要的作用。
[0003]在实际应用场景中,由于客户的人群复杂性,例如:客户所说的话包括普通话、方言、中英文,并且每个客户的语速不同,因此在面试审批中客户在回答问题的环节中,会出现ASR识别错误,从而导致AI对客户意图识别出现错误。
[0004]此外,由于ASR模型的特点,需要大量专业领域语音数据进行训练,才能够得到专有ASR模型;但是训练此模型时间长,需要以月为单位计算进行训练,并且模型的参数调优困难,因此优化ASR模型的识别准确率成本高,并且影响客户视频的体验。< ...
【技术保护点】
【技术特征摘要】
1.一种基于双模态模型的语音识别方法,应用于电子设备,其特征在于,所述方法包括:对将嘴部视频片段进行切分,切分后的数据包括:视频流数据、与所述视频流数据相对应的音频流数据、以及所述音频流数据相对应的文本数据;对所述视频流数据、所述音频流数据以及所述文本数据进行预处理,分别获取对应的图片序列数据、音频序列数据以及标准文本;通过构建的双模态模型对所述图片序列数据、所述音频序列数据进行特征提取,获取对应的图片序列特征向量、音频序列特征向量,并将所述图片序列特征向量与所述音频序列特征向量拼接在一起形成双模态特征向量;通过变压编码器模型、所述双模态特征向量、以及所述标准文本训练所述双模态模型;通过训练后的双模态模型识别用户的意图。2.如权利要求1所述的基于双模态模型的语音识别方法,其特征在于,所述对将嘴部视频片段进行切分,包括:根据停顿时间将截取的嘴部视频片段切分为多句话;将每句话对应的嘴部视频片段切分为视频流数据、与所述视频流数据相对应的音频流数据、以及与所述音频流数据相对应的文本数据。3.如权利要求1所述的基于双模态模型的语音识别方法,其特征在于,在对所述视频流数据进行预处理,获取图片序列数据的过程,包括:提取所述视频流数据中嘴部区域的每一帧图片;检测确定每一帧图片中的嘴部区域坐标;设置包含所述嘴部区域坐标的范围;根据所述嘴部区域坐标的范围,获取包含有嘴部区域的图片;对获取的包含有嘴部区域的图片进行向量转化,形成包含有嘴部区域的图片序列数据。4.如权利要求1所述的基于双模态模型的语音识别方法,其特征在于,所述通过构建的双模态模型对所述图片序列数据、所述音频序列数据进行特征提取,获取对应的图片序列特征向量、音频序列特征向量,包括:通过视觉网络对所述图片序列数据进行特征提取,获取图片序列特征向量,其中,所述视觉网络作为所述双模态模型中的一层;通过音频网络对所述音频序列数据进行特征提取,获取音频序列特征向量,其中,所述音频网络作为所述双模态模型中的另一层。5.如权利要求4所述的基于双模态模型的语音识别方法,其特征在于,所述通过视觉网络对所述图片序列数据进行特征提取,获取对应的图片序列特征向量,包括:通过卷积神经网络对所述图片序列数据中每张图片的3D向量进行处理,获取具有嘴部的图片全局特征向量;通过开源库获取所述图片序列数据中每张图片嘴部的空间特征向量;将所述图片全局特征向量与相对应的空间特征向量相叠加,获取空间位置信息特征向量,所述空间位置信息特征向量为...
【专利技术属性】
技术研发人员:南海顺,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。