一种语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38830632 阅读:13 留言:0更新日期:2023-09-17 09:50
本发明专利技术提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取目标语音和目标视频,其中,目标语音为目标视频的视频内容的解说语音;对目标语音提取声学特征,得到目标语音的声学特征,并对目标视频提取含视频内容信息的视觉特征,得到目标视频的视觉特征;根据目标语音的声学特征并辅以目标视频的视觉特征,确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音,其与目标视频的视频内容具有一定的相关性,本发明专利技术对目标视频提取含视频内容信息的视觉特征,辅以视觉特征对解说语音进行语音识别,在对目标语音即解说语音进行语音识别时,辅以含视频内容信息的视觉特征,能够获得较为准确的语音识别结果。准确的语音识别结果。准确的语音识别结果。

【技术实现步骤摘要】
一种语音识别方法、装置、设备及存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]解说语音一般指解说员对视频的视频内容进行解说的语音,比如,游戏解说语音为游戏解说员对游戏视频的视频内容进行解说的语音。在某些领域,解说语音识别服务变得越来越重要,需求也越来越多,对解说语音识别服务的质量要求也逐渐提升。
[0003]目前的语音识别方案大多为针对通用语音的识别方案,这些方案由于关注的是通用语音的识别,因此,对通用语音具有较好的识别效果。然而,解说语音通常为特定领域的语音,因此,针对通用语音的识别方案对于解说语音的适用性并不高,即,采用针对通用语音的识别方案对解说语音进行识别,识别效果较差。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种语音识别方法、装置、设备及存储介质,用以解决采用针对通用语音的识别方案对解说语音进行识别,识别效果较差的问题,其技术方案如下:
[0005]一种语音识别方法,包括:
[0006]获取目标语音和目标视频,其中,所述目标语音为所述目标视频的视频内容的解说语音;
[0007]对所述目标语音提取声学特征,得到所述目标语音的声学特征,并对所述目标视频提取含视频内容信息的视觉特征,得到所述目标视频的视觉特征;
[0008]根据所述目标语音的声学特征并辅以所述目标视频的视觉特征,确定所述目标语音的语音识别结果。
[0009]可选的,所述对所述目标语音提取声学特征,得到所述目标语音的声学特征,并对所述目标视频提取含视频内容信息的视觉特征,得到所述目标视频的视觉特征;根据所述目标语音的声学特征并辅以所述目标视频的视觉特征,确定所述目标语音的语音识别结果,包括:
[0010]利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频,得到所述目标语音的语音识别结果;其中:
[0011]所述语音识别模型采用第一训练集中的第一训练数据训练得到,所述第一训练数据包括第一训练视频和标注有语音内容文本的第一训练语音,所述第一训练语音为所述第一训练视频的视频内容的解说语音;
[0012]所述语音识别模型的训练目标包括:使根据所述第一训练语音的声学特征并辅以所述第一训练视频的视觉特征预测的语音识别结果与所述第一训练语音标注的语音内容文本趋于一致。
[0013]可选的,所述利用预先训练得到的语音识别模型处理所述目标语音和所述目标视
频,得到所述目标语音的语音识别结果,包括:
[0014]利用所述语音识别模型,获取所述目标语音的声学特征和所述目标视频的视觉特征;
[0015]利用所述语音识别模型,将所述目标语音的声学特征与所述目标视频的视觉特征融合;
[0016]利用所述语音识别模型,以融合后特征为依据,预测所述目标语音的语音识别结果。
[0017]可选的,所述第一训练视频标注有视频内容描述文本;
[0018]所述语音识别模型的训练目标还包括:使根据所述第一训练视频的视觉特征预测的视频内容描述文本与所述第一训练视频标注的视频内容描述文本趋于一致。
[0019]可选的,所述语音识别模型的训练过程包括:
[0020]利用语音识别模型获取所述第一训练语音提取声学特征以及所述第一训练视频的视觉特征,并以所述第一训练语音的声学特征为依据,辅以所述第一训练视频的视觉特征,预测所述第一训练语音的语音识别结果,得到第一预测结果;
[0021]根据所述第一训练视频的视觉特征,预测所述第一训练视频的视频内容描述文本,得到第二预测结果;
[0022]根据所述第一预测结果和所述第一训练语音标注的语音内容文本,以及所述第二预测结果和所述第一训练视频标注的视频内容描述文本,对语音识别模型进行参数更新。
[0023]可选的,所述以所述第一训练语音的声学特征为依据,辅以所述第一训练视频的视觉特征,预测所述第一训练语音的语音识别结果,包括:
[0024]对所述第一训练语音的声学特征和所述第一训练视频的视觉特征进行模态丢弃处理,得到模态丢弃处理后的特征;
[0025]对所述模态丢弃处理后的特征进行融合;
[0026]根据融合后特征预测所述第一训练语音的语音识别结果。
[0027]可选的,所述根据所述第一训练视频的视觉特征,预测所述第一训练视频的视频内容描述文本,得到第二预测结果,包括:
[0028]对所述第一训练视频的视觉特征进行解码:在每个解码时刻,根据所述第一训练视频的视觉特征获取该解码时刻解码所需的视觉上下文特征,对该解码时刻解码所需的视觉上下文特征进行解码,得到该解码时刻的视频内容描述文本预测结果;
[0029]由各解码时刻的视频内容描述文本预测结果组成第二预测结果。
[0030]可选的,所述语音识别模型包括:用于对输入的语音提取声学特征、对输入的视频提取视觉特征以及将提取的声学特征与提取的视觉特征融合的编码模块,以及对所述编码模块输出的融合特征进行解码的解码模块;
[0031]初始的语音识别模型中的编码模块预先采用第二训练集中的第二训练数据训练得到,其中,所述第二训练数据包括无标注的第二训练语音以及无标注的第二训练视频,所述第二训练语音为所述第二训练视频的视频内容的解说语音。
[0032]可选的,采用所述第二训练集中的第二训练数据训练编码模块的过程包括:
[0033]针对所述第二训练集中的每条第二训练数据,基于预先训练得到的通用语音识别模型获取该第二训练数据中的第二训练语音的声学特征,作为该第二训练数据对应的声学
特征;
[0034]对所述第二训练集中各第二训练数据分别对应的声学特征进行聚类,得到多类声学特征,并为每类声学特征设定一类别标签,将每个声学特征的类别标签确定为对应的第二训练数据的类别标签;
[0035]将每条具有类别标签的第二训练数据作为第三训练数据,由获得的各第三训练数据组成第三训练集;
[0036]采用所述第三训练集,结合数据分类任务,训练编码模块。
[0037]可选的,所述采用所述第三训练集,结合数据分类任务,训练编码模块,包括:
[0038]构建包括编码模块和分类模块的数据分类模型;
[0039]从所述第三训练集中获取第三训练数据;
[0040]将获取的第三训练数据输入数据分类模型的编码模块,得到第三训练数据对应的融合特征;
[0041]将第三训练数据对应的融合特征输入数据分类模型的分类模块进行类别预测,得到第三训练数据的类别预测结果;
[0042]根据第三训练数据的类别预测结果以及第三训练数据的类别标签,对数据分类模型进行参数更新。
[0043]一种语音识别装置,包括:数据获取模块、特征获取模块和语音识别结果确定模块;
[0044]所述数据获取模块,用于获取目标语音和目标视频,其中,所述目标语音为所述目标视频的视频内容的解说语音;...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取目标语音和目标视频,其中,所述目标语音为所述目标视频的视频内容的解说语音;对所述目标语音提取声学特征,得到所述目标语音的声学特征,并对所述目标视频提取含视频内容信息的视觉特征,得到所述目标视频的视觉特征;根据所述目标语音的声学特征并辅以所述目标视频的视觉特征,确定所述目标语音的语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述对所述目标语音提取声学特征,得到所述目标语音的声学特征,并对所述目标视频提取含视频内容信息的视觉特征,得到所述目标视频的视觉特征;根据所述目标语音的声学特征并辅以所述目标视频的视觉特征,确定所述目标语音的语音识别结果,包括:利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频,得到所述目标语音的语音识别结果;其中:所述语音识别模型采用第一训练集中的第一训练数据训练得到,所述第一训练数据包括第一训练视频和标注有语音内容文本的第一训练语音,所述第一训练语音为所述第一训练视频的视频内容的解说语音;所述语音识别模型的训练目标包括:使根据所述第一训练语音的声学特征并辅以所述第一训练视频的视觉特征预测的语音识别结果与所述第一训练语音标注的语音内容文本趋于一致。3.根据权利要求2所述的语音识别方法,其特征在于,所述利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频,得到所述目标语音的语音识别结果,包括:利用所述语音识别模型,获取所述目标语音的声学特征和所述目标视频的视觉特征;利用所述语音识别模型,将所述目标语音的声学特征与所述目标视频的视觉特征融合;利用所述语音识别模型,以融合后特征为依据,预测所述目标语音的语音识别结果。4.根据权利要求2所述的语音识别方法,其特征在于,所述第一训练视频标注有视频内容描述文本;所述语音识别模型的训练目标还包括:使根据所述第一训练视频的视觉特征预测的视频内容描述文本与所述第一训练视频标注的视频内容描述文本趋于一致。5.根据权利要求4所述的语音识别方法,其特征在于,所述语音识别模型的训练过程包括:利用语音识别模型,获取所述第一训练语音的声学特征以及所述第一训练视频的视觉特征,并以所述第一训练语音的声学特征为依据,辅以所述第一训练视频的视觉特征,预测所述第一训练语音的语音识别结果,得到第一预测结果;根据所述第一训练视频的视觉特征,预测所述第一训练视频的视频内容描述文本,得到第二预测结果;根据所述第一预测结果和所述第一训练语音标注的语音内容文本,以及,所述第二预测结果和所述第一训练视频标注的视频内容描述文本,对语音识别模型进行参数更新。6.根据权利要求5所述的语音识别方法,其特征在于,所述以所述第一训练语音的声学
特征为依据,辅以所述第一训练视频的视觉特征,预测所述第一训练语音的语音识别结果,包括:对所述第一训练语音的声学特征和所述第一训练视频的视觉特征进行模态丢弃处理,得到模态丢弃处理后的特征;对所述模态丢弃处理后的特征进行融合;根据融合后特征预测所述第一训练语音的语音识别结果。7.根据权利要求5所述的语音识别方法,其特征在于,所述根据所述第一训练视频的视觉...

【专利技术属性】
技术研发人员:茆廷志万根顺邢秀萍张景宣高建清潘嘉刘聪胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1