本发明专利技术涉及语音识别技术领域,提供一种语音识别方法、装置、电子设备及存储介质,该方法通过对音频数据中目标实体特征的提取,可以大大提高语音识别结果的准确性,提升语音识别的效率并降低语音识别的成本。语音识别模型中的音频实体特征提取单元基于无文字标注的音视频训练样本训练得到,不仅不需要人工标注,降低标注成本,还可以充分挖掘音频数据和视频数据的内在联系,使该预训练过程更加关注于音频中的实体,可以应用于语音识别类下游任务中,使语音识别模型具有提升热词识别效果的能力。而且,该语音识别模型能够完成不同类型的语音识别任务,可以提高语音识别模型的泛化性,扩展了语音识别模型的应用场景。展了语音识别模型的应用场景。展了语音识别模型的应用场景。
【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质
[0001]本专利技术涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
技术介绍
[0002]随着语音识别的普及,语音识别技术被应用在各个领域,用户可以借助语音识别技术,实现智能输入,只需要通过语音,就可以完成文字输入、指令控制等,极大地便利了人们的生产生活。
[0003]但单一模态下的系统仍然存在一些固有的问题,比如自动语音识别(Automatic Speech Recognition,ASR)对噪声的容忍性不足,噪声污染严重时性能大幅度下降,声音缺失时也无法补足这一缺失的信息。视频语音识别,或称唇语识别(Visual Speech Recognition,VSR)存在同音异意词的现象,相同的唇形可能代表了不同的单词发音,同一个单词发音也可能有不同的唇形序列,针对单一模态下存在的不足,音视频语音识别(Audio
‑
Visual Speech Recognition,AVSR)被提出。
[0004]现有技术中,对于音视频语音识别来说,需要大量的人工标注数据,而标注数据相当耗时且昂贵。同时,在现有技术中采用无监督音视频表征学习的模型大多使用动作识别类、事件检测类视频数据进行预训练,应用于视频动作识别,声音事件检测等下游任务,关注的是视频中发生的事件,在语音识别类下游任务应用较少。此外,现有技术中采用无监督音视频表征学习的模型大多学习,比如像声音事件分类场景中的短时实例级表征等全局特征,这样的学习目标可能不适合语音识别,因为语音识别需要连续变化并包含长期上下文依赖性的序列表征。
技术实现思路
[0005]本专利技术提供一种语音识别方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种语音识别方法,包括:
[0007]获取待处理的音频数据;
[0008]将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元,得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征;
[0009]将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元,得到所述拼接单元输出的拼接结果;
[0010]将所述拼接结果输入至所述语音识别模型的语音识别单元,得到所述语音识别单元输出的语音识别结果;
[0011]其中,所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到,所述语音识别模型是在所述音频实体特征提取单元的基础上,基于携带有文字标注的音频
训练样本训练得到。
[0012]根据本专利技术提供的语音识别方法,所述音视频训练样本包括成对的音频数据样本和视频数据样本;
[0013]所述音频实体特征提取单元基于如下步骤训练得到:
[0014]基于初始音频特征提取单元,对所述音频数据样本进行特征提取,得到音频样本特征;
[0015]基于初始视频特征提取单元,对所述视频数据样本进行特征提取,得到视频样本特征;
[0016]基于所述音频样本特征以及所述视频样本特征,计算第一损失函数,并基于所述第一损失函数,对所述初始音频特征提取单元以及所述初始视频特征提取单元同步进行结构参数迭代;
[0017]将结构参数迭代得到的目标音频特征提取单元作为所述音频实体特征提取单元。
[0018]根据本专利技术提供的语音识别方法,所述音视频训练样本中的正例样本对基于如下步骤确定:
[0019]采集音视频数据中预设时段的视频片段,所述预设时段的时长为预设时长;
[0020]采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段;
[0021]将所述视频片段与每个所述音频片段均确定为一个所述正例样本对。
[0022]根据本专利技术提供的语音识别方法,所述采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段,包括:
[0023]确定所述视频片段的中间时刻;
[0024]以所述中间时刻为中心,以指定时长为间隔,选取所述预设数量个所述音频片段;
[0025]其中,所述指定时长小于或等于所述预设时长。
[0026]根据本专利技术提供的语音识别方法,所述第一损失函数包括多示例学习噪声对比估计损失函数。
[0027]根据本专利技术提供的语音识别方法,所述基于初始视频特征提取单元,对所述视频数据样本进行特征提取,得到视频样本特征,包括:
[0028]提取所述视频数据样本中的Fbank特征;
[0029]将所述Fbank特征输入至所述初始视频特征提取单元,得到所述初始视频特征提取单元输出的所述视频样本特征。
[0030]根据本专利技术提供的语音识别方法,所述语音识别模型基于如下步骤训练得到:
[0031]将所述音频训练样本分别输入至初始声学特征提取单元以及所述音频实体特征提取单元,得到所述初始声学特征提取单元输出的样本声学特征以及所述音频实体特征提取单元输出的样本实体特征;
[0032]将所述样本声学特征以及所述样本实体特征输入至初始拼接单元,得到所述初始拼接单元输出的样本拼接结果;
[0033]将所述样本拼接结果输入至初始语音识别单元,得到所述初始语音识别单元输出的样本识别结果;
[0034]基于所述样本识别结果与所述文字标注,计算第二损失函数,并基于所述第二损
失函数,对所述初始声学特征提取单元、所述初始拼接单元以及所述初始语音识别单元同步进行结构参数迭代,得到所述语音识别模型。
[0035]本专利技术还提供一种语音识别装置,包括:
[0036]数据获取模块,用于获取待处理的音频数据;
[0037]特征提取模块,用于将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元,得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征;
[0038]特征拼接模块,用于将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元,得到所述拼接单元输出的拼接结果;
[0039]语音识别模块,用于将所述拼接结果输入至所述语音识别模型的语音识别单元,得到所述语音识别单元输出的语音识别结果;
[0040]其中,所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到,所述语音识别模型是在所述音频实体特征提取单元的基础上,基于携带有文字标注的音频训练样本训练得到。
[0041]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的语音识别方法。
[0042]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的语音识别方法。
[0043]本专利技术还提供一种计算机程序产品,包括计算机程序,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待处理的音频数据;将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元,得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征;将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元,得到所述拼接单元输出的拼接结果;将所述拼接结果输入至所述语音识别模型的语音识别单元,得到所述语音识别单元输出的语音识别结果;其中,所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到,所述语音识别模型是在所述音频实体特征提取单元的基础上,基于携带有文字标注的音频训练样本训练得到。2.根据权利要求1所述的语音识别方法,其特征在于,所述音视频训练样本包括成对的音频数据样本和视频数据样本;所述音频实体特征提取单元基于如下步骤训练得到:基于初始音频特征提取单元,对所述音频数据样本进行特征提取,得到音频样本特征;基于初始视频特征提取单元,对所述视频数据样本进行特征提取,得到视频样本特征;基于所述音频样本特征以及所述视频样本特征,计算第一损失函数,并基于所述第一损失函数,对所述初始音频特征提取单元以及所述初始视频特征提取单元同步进行结构参数迭代;将结构参数迭代得到的目标音频特征提取单元作为所述音频实体特征提取单元。3.根据权利要求2所述的语音识别方法,其特征在于,所述音视频训练样本中的正例样本对基于如下步骤确定:采集音视频数据中预设时段的视频片段,所述预设时段的时长为预设时长;采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段;将所述视频片段与所述预设数量个所述音频片段确定为一个所述正例样本对。4.根据权利要求3所述的语音识别方法,其特征在于,所述采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段,包括:确定所述视频片段的中间时刻;以所述中间时刻为中心,以指定时长为间隔,选取所述预设数量个所述音频片段;其中,所述指定时长小于或等于所述预设时长。5.根据权利要求2所述的语音识别方法,其特征在于,所述第一损失函数包括多示例学习噪声对比估计损失函数。6.根据权利要求2所述的语音识别方法,其特征在于,所述基于初始音频特征提取单元,对所述音频数据样本进行特征提取,得到音频样本特征,包括:提取所述音频数据样本中的Fbank特征;将所...
【专利技术属性】
技术研发人员:吴航,潘嘉,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。