【技术实现步骤摘要】
一种跨模态语音识别方法
[0001]本专利技术涉及语音识别
,具体为一种跨模态语音识别方法。
技术介绍
[0002]语音是日常进行交流最直观的方式,通过语音人类可以获取到很多的信息。但是在嘈杂的环境中,由于存在多种声源和背景噪音。虽然自动语音识别系统已经基本上达到了与人类感知同样的水平,但是现行阶段仍易受噪音的影响,当语音信息的信号源被破坏时,系统性能就会受到影响。
技术实现思路
[0003]本专利技术提供一种跨模态语音识别方法跨模态语音识别方法,以解决至少一个上述技术问题。
[0004]本专利技术提供了一种跨模态语音识别方法,包括以下步骤:
[0005]获得待分析的视频信息并抽取其中的通话音频,对所述通话音频进行纠偏以及滤波操作,得到标准语音;
[0006]对视频信息进行分帧处理以获得视觉信息;
[0007]对所述标准语音进行分帧处理以及端点检测,得到语音帧序列;
[0008]利用语音识别模型对所述语音帧序列进行解码操作,得到所述语音帧序列所对应的第一文本信息; ...
【技术保护点】
【技术特征摘要】
1.一种跨模态语音识别方法,其特征在于,所述方法包括:步骤S1:获得待分析的视频信息并抽取其中的通话音频,对所述通话音频进行纠偏以及滤波操作,得到标准语音;步骤S2:对视频信息进行分帧处理以获得视觉信息;步骤S3:对所述标准语音进行分帧处理以及端点检测,得到语音帧序列;步骤S4:利用语音识别模型对所述语音帧序列进行解码操作,得到所述语音帧序列所对应的第一文本信息;步骤S5:对所述视觉信息进行多重特征提取操作,得到所述视觉信息的清晰面部特征序列;步骤S6:利用预设的目标检测模型对所述清晰面部特征序列进行提取分析,得到初步唇部信息序列;步骤S7:利用图像增强模型对初步唇部信息序列进行优化,得到矫正的唇部信息序列;步骤S8:利用训练后的唇语转换模型对所述矫正的唇部信息序列进行解码操作,得到所述矫正的唇部信息序列的所对应的第二候选词集;步骤S9:针对语音帧数序列对应的第一文本信息以及矫正的唇部信息序列对应的第二候选词集,利用训练的融合神经模型加以对比和融合,输出最后的文本信息。2.如权利要求1所述的跨模态语音识别方法,其特征在于,步骤S1步骤具体为:将所述通话录音转化为语音帧序列,根据所述列语音帧序列以及预设的采样频率配置对所述得到列语音帧序列以及去除通话录音的干扰关键帧序列;根据所述列语音帧序列以及利用滤波器,将所述干扰帧序列以及从所述语音帧序列中去除以及消除所述初始语音中的干扰波段频率,得到对应的标准语音。3.如权利要求1所述的跨模态语音识别方法,其特征在于,利用语音识别模型对所述语音帧序列进行解码操作,得到所述语音帧序列所对应的第一文本信息的步骤具体为:通过所述语音识别模型内的自注意力网络解码出所述语音帧序列对应的候选词集序列;选取所述候选词集序列中的权重较高的多个候选词,组成第一候选词集;选取所述第一候选词集序列中权重最大的候选词作为目标候选词,将所述目标候选词按照时间次序排列组成第一文本信息。4.如权利要求1所述的跨模态语音识别方法,其特征在于,对所述视觉信息进行多重特征提取操作,得到所述视觉信息所对应的清晰面部特征序列的步骤具体为:根据预设的人脸特征集从所述的视觉信息中提取初步面部特征序列;利用人脸活体检测算法,对所述的初步面部特征序列进行活体人脸检测,将所述的初步面部特征序列的干扰人脸进行去除,得到初步活体面部...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。