基于预训练特征表示的语音识别方法、装置及电子设备制造方法及图纸

技术编号:36959141 阅读:50 留言:0更新日期:2023-03-22 19:19
本发明专利技术涉及基于预训练特征表示的语音识别方法、装置及电子设备;其中,方法包括:构建无标注的语音数据的第一数据集,有标注的语音数据的第二数据集,文本数据的第三数据集;利用第一数据集和第二数据集分别进行语音模型的第一阶段预训练和第二阶段训练;利用第三数据集训练语言模型;将语音数据输入到语音模型中,根据束搜索算法进行搜索预测得到预测概率最高的前n个文本识别结果候选以及对应的预测概率;将前n个候选文本识别结果输入到语言模型中分别进行预测得到各自的预测概率,综合语音模型和语言模型输出的预测概率,选出一个候选文本识别结果作为语音识别的最终输出。本发明专利技术提高语音表征能力,降低语音识别错误率;降低人工标注成本。低人工标注成本。低人工标注成本。

【技术实现步骤摘要】
基于预训练特征表示的语音识别方法、装置及电子设备


[0001]本专利技术属于语音识别
,具体涉及一种基于预训练特征表示的语音识别方法、装置及电子设备。

技术介绍

[0002]语音识别技术旨在实现从语音的音频信号到语音文字的转换问题。以语音识别结果为基础,融合自然语言理解、多模态融合等技术,以实现人机交互的目的。当前语音识别系统通常采用有监督训练方案,即基于人工对采集的特定音频数据进行标注,根据原始音频数据及特征,以文字标注为最终目标,训练得到语音识别的分类器。目前常用的语音识别技术分为两大类。一类基于隐马尔科夫深度神经网络(HMM

DNN)的混合框架,分为声学模型和语言模型两大模块,并采用解码算法在识别过程中通过维特比搜索,得到最优序列并生成解码输出。另一类语音识别算法基于端到端的神经网络设计,通过连接时序分类算法准则设计优化目标,使得神经网络直接根据原始音频特征直接输出识别文字结果。得益于深度学习的发展,终于让语音识别能够在非严格可控的环境下也能准确的识别。尽管当前取得的成绩是比较突出的,但应用过程当中也有一些不足,如强烈的噪声、强大的回声、多种口音、多样化语言、过度拥挤及大词的影响等,都可能使得语音识别的效果降低。
[0003]目前,现有的语音识别方法中至少存在如下问题:
[0004]对于低资源语言对,人工标注成本通常较高,耗费时间较长,且需要对标注质量进行检查,不适合超大规模语音识别的训练;基于MFCC(梅尔倒谱系数)、FBANK(滤波器组特征)等特征的传统语音识别系统忽略了语音相位信息,且基于简化后的滤波器理论提取,对复杂语音特性建模能力仍有一定缺陷。同时基于端到端的语音识别模型,在生成文字的时候缺乏语言模型的指导,有可能会生成未知的单词,影响语音识别的准确率。

技术实现思路

[0005]鉴于上述的分析,本专利技术旨在公开了一种基于预训练特征表示的语音识别方法、装置及电子设备,解决低资源语言语音识别在各业务领域和应用场景中的数据依赖和语音表征问题。
[0006]本专利技术一方面公开了一种基于预训练特征表示的语音识别方法,包括:
[0007]训练样本集构建步骤;构建的训练样本集包括第一、第二和第三数据集;其中,第一数据集为无标注的语音数据集,第二数据集为有标注的语音数据集,第三数据集为文本数据集;
[0008]模型训练步骤;利用第一数据集进行语音模型的第一阶段预训练,利用第二数据集对预训练后的语音模型进行第二阶段训练;利用第三数据集训练语言模型;
[0009]语音识别步骤;将按句切分后的语音数据输入到训练后的语音模型中,根据束搜索算法进行搜索预测,得到预测概率最高的前n个文本识别结果候选以及对应的预测概率;将前n个候选文本识别结果输入到训练后的语言模型中分别进行预测得到各自的预测概
率,综合语音模型和语言模型输出的预测概率,从n个候选文本识别结果中选出一个候选文本识别结果作为语音识别的最终输出。
[0010]本专利技术另一方面公开了一种基于如上所述的基于预训练特征表示的语音识别方法的语音识别装置,包括:语音模型、语言模型和识别输出模块;
[0011]所述语音模型,用于对输入的按句切分后的语音数据,根据束搜索算法进行搜索预测,得到预测概率最高的前n个文本识别结果候选以及对应的预测概率;
[0012]所述语言模型,用于对输入的前n个文本识别结果候选分别进行预测识别,得到对应的预测概率;
[0013]所述识别输出模块,用于对所述语音模型的预测概率和所述语言模型的预测概率求和,得到n个文本识别结果中概率最高的识别结果作为语音识别的最终输出。
[0014]本专利技术另一方面还公开了一种电子设备,所述电子设备至少包括存储器和处理器;其中,
[0015]所述处理器用于执行如上所述的基于预训练特征表示的语音识别方法;
[0016]所述存储器用于存储处理器执行操作所需的程序。
[0017]本专利技术另一方面还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于预训练特征表示的语音识别方法。
[0018]本专利技术另一方面还公开了一种计算机程序,所述计算机程序在电子设备上运行时,执行如上所述的基于预训练特征表示的语音识别方法。
[0019]本专利技术可实现以下有益效果之一:
[0020]本专利技术公开的基于预训练特征表示的语音识别方法和装置,解决了低资源语言语音识别在各业务领域和应用场景中的数据依赖和语音表征问题;利用大量的无标注音频数据来提高语音的表征能力,降低人工标注成本;并利用基于字符级的语言模型降低语音识别的错误率。
[0021]本专利技术通过获取待识别的目标语音信号,通过预训练模型进行特征提取,改进语音识别中的特征表示,该预训练模式是通过在大量无标注语音数据上进行预训练得到的,充分利用了无标注的语音信息。通过在少量标注数据上对语音识别模型进行微调,进一步增强了对该语种分类的适应性。但由于每一帧的输出相对独立,容易产生错误词的输出。因此本专利技术采用基于字符级的语言模型对语音识别结果进行优化,该字符级语言模型充分利用了无标注的文本信息,可以改进语音识别的文本输出,进而提升语音识别系统的性能。尤其是针对小语种语言来说,这种方法可以充分利用未标注信息来改进语音识别的效果。
附图说明
[0022]附图仅用于示出具体实施例的目的,而并不认为是对本专利技术的限制,在整个附图中,相同的参考符号表示相同的部件。
[0023]图1为本专利技术实施例一中的基于预训练特征表示的语音识别方法流程图;
[0024]图2为本专利技术实施例一中的语音编码模型结构图;
[0025]图3为本专利技术实施例一中的语言模型结构图;
[0026]图4为本专利技术实施例一中的语音识别过程示意图;
[0027]图5为本专利技术实施例三中的电子设备示意图。
具体实施方式
[0028]下面结合附图来具体描述本专利技术的优选实施例,其中,附图构成本申请一部分,并与本专利技术的实施例一起用于阐释本专利技术的原理。
[0029]实施例一
[0030]本专利技术的一个实施例公开一种基于预训练特征表示的语音识别方法,如图1所示,包括以下步骤:
[0031]步骤S1、训练样本集构建步骤;构建的训练样本集包括第一、第二和第三数据集;其中,第一数据集为无标注的语音数据集,第二数据集为有标注的语音数据集,第三数据集为文本数据集;
[0032]步骤S2、模型训练步骤;利用第一数据集进行语音模型的第一阶段预训练,利用第二数据集对预训练后的语音模型进行第二阶段训练;利用第三数据集训练语言模型;
[0033]步骤S3、语音识别步骤;将按句切分后的语音数据输入到训练后的语音模型中,根据束搜索算法进行搜索预测,得到预测概率最高的前n个文本识别结果候选以及对应的预测概率;将n个候本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练特征表示的语音识别方法,其特征在于,包括:训练样本集构建步骤;构建的训练样本集包括第一、第二和第三数据集;其中,第一数据集为无标注的语音数据集,第二数据集为有标注的语音数据集,第三数据集为文本数据集;模型训练步骤;利用第一数据集进行语音模型的第一阶段预训练,利用第二数据集对预训练后的语音模型进行第二阶段训练;利用第三数据集训练语言模型;语音识别步骤;将按句切分后的语音数据输入到训练后的语音模型中,根据束搜索算法进行搜索预测,得到预测概率最高的前n个文本识别结果候选以及对应的预测概率;将前n个候选文本识别结果输入到训练后的语言模型中分别进行预测得到各自的预测概率,综合语音模型和语言模型输出的预测概率,从n个候选文本识别结果中选出一个候选文本识别结果作为语音识别的最终输出。2.根据权利要求1所述的基于预训练特征表示的语音识别方法,其特征在于,所述语音模型为基于预训练的语音编码模型;包括卷积模块、量化模块、上下文提取模块和输出模块;卷积模块,用于提取输入的语音数据的语音特征;量化模块与卷积模块连接,用于对卷积模块输出的语音特征进行向量空间分解,并对分解得到的低维向量空间分别做量化;上下文提取模块与量化模块连接,用于提取语音特征的上下文关系信息;由基于自注意力的多层神经网络构成;每层神经网络的隐含层均采用Transformer的Encoder结构;输出模块与上下文提取模块连接,用于将上下文关系提取模块中的最后层隐含层进行堆叠进行输出。3.根据权利要求2所述的基于预训练特征表示的语音识别方法,其特征在于,所述语音模型的训练过程包括第一阶段预训练和第二阶段训练:在第一阶段预训练中利用第一数据集进行训练;在训练过程中,通过自监督学习的方式进行训练,提取出第一数据集中的语音数据的共性特征;所述第一数据集中的训练样本为将获取单语语音数据进行预处理后得到的无标注的、单句语音的音频样本;在第二阶段训练利用第二数据集进行训练;在训练过程中,基于预训练后的语音编码模型和第二阶段训练数据集,通过定义的损失函数,采用循环迭代的训练方式来训练语音识别模型,直至网络收敛;所述第二数据集中的训练样本为从第一数据集中随机选取的、经人工进行文本标注的音频样本。4.根据权利要求1所述的基于预训练特征表示的语音识别方法,其特征在于,所述语言模型为字符级语言模型;包括输入层、卷积和嵌入层、基于LSTM的循环神经网络和输出层;所述输入层,用于将输入的词项w
t
传入到基于LSTM的循环神经网络,将与词项w
t
对应的字符序列{char
t1
,char
t2
,

,char
tm
}传入到卷积和嵌入层;所述卷积层和嵌入层分别用于处理字符序列和词项;其中,卷积层用于对{char<...

【专利技术属性】
技术研发人员:张新路钱立恩马国峰
申请(专利权)人:中国电子科技集团公司第三十六研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1