基于预训练特征表示的语音识别方法、装置及电子设备制造方法及图纸

技术编号：36959141 阅读：50 留言：0更新日期：2023-03-22 19:19

本发明专利技术涉及基于预训练特征表示的语音识别方法、装置及电子设备；其中，方法包括：构建无标注的语音数据的第一数据集，有标注的语音数据的第二数据集，文本数据的第三数据集；利用第一数据集和第二数据集分别进行语音模型的第一阶段预训练和第二阶段训练；利用第三数据集训练语言模型；将语音数据输入到语音模型中，根据束搜索算法进行搜索预测得到预测概率最高的前n个文本识别结果候选以及对应的预测概率；将前n个候选文本识别结果输入到语言模型中分别进行预测得到各自的预测概率，综合语音模型和语言模型输出的预测概率，选出一个候选文本识别结果作为语音识别的最终输出。本发明专利技术提高语音表征能力，降低语音识别错误率；降低人工标注成本。低人工标注成本。低人工标注成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于预训练特征表示的语音识别方法、装置及电子设备

[0001]本专利技术属于语音识别
，具体涉及一种基于预训练特征表示的语音识别方法、装置及电子设备。

技术介绍

[0002]语音识别技术旨在实现从语音的音频信号到语音文字的转换问题。以语音识别结果为基础，融合自然语言理解、多模态融合等技术，以实现人机交互的目的。当前语音识别系统通常采用有监督训练方案，即基于人工对采集的特定音频数据进行标注，根据原始音频数据及特征，以文字标注为最终目标，训练得到语音识别的分类器。目前常用的语音识别技术分为两大类。一类基于隐马尔科夫深度神经网络(HMM
‑
DNN)的混合框架，分为声学模型和语言模型两大模块，并采用解码算法在识别过程中通过维特比搜索，得到最优序列并生成解码输出。另一类语音识别算法基于端到端的神经网络设计，通过连接时序分类算法准则设计优化目标，使得神经网络直接根据原始音频特征直接输出识别文字结果。得益于深度学习的发展，终于让语音识别能够在非严格可控的环境下也能准确的识别。尽管当前取得的成绩是比较突出的，但应用过程当中也有一些不足，如强烈的噪声、强大的回声、多种口音、多样化语言、过度拥挤及大词的影响等，都可能使得语音识别的效果降低。
[0003]目前，现有的语音识别方法中至少存在如下问题：
[0004]对于低资源语言对，人工标注成本通常较高，耗费时间较长，且需要对标注质量进行检查，不适合超大规模语音识别的训练；基于MFCC(梅尔倒谱系数)、FBANK(滤波器组特征)等特征的传统语音识别系统...

【技术保护点】

【技术特征摘要】
1.一种基于预训练特征表示的语音识别方法，其特征在于，包括：训练样本集构建步骤；构建的训练样本集包括第一、第二和第三数据集；其中，第一数据集为无标注的语音数据集，第二数据集为有标注的语音数据集，第三数据集为文本数据集；模型训练步骤；利用第一数据集进行语音模型的第一阶段预训练，利用第二数据集对预训练后的语音模型进行第二阶段训练；利用第三数据集训练语言模型；语音识别步骤；将按句切分后的语音数据输入到训练后的语音模型中，根据束搜索算法进行搜索预测，得到预测概率最高的前n个文本识别结果候选以及对应的预测概率；将前n个候选文本识别结果输入到训练后的语言模型中分别进行预测得到各自的预测概率，综合语音模型和语言模型输出的预测概率，从n个候选文本识别结果中选出一个候选文本识别结果作为语音识别的最终输出。2.根据权利要求1所述的基于预训练特征表示的语音识别方法，其特征在于，所述语音模型为基于预训练的语音编码模型；包括卷积模块、量化模块、上下文提取模块和输出模块；卷积模块，用于提取输入的语音数据的语音特征；量化模块与卷积模块连接，用于对卷积模块输出的语音特征进行向量空间分解，并对分解得到的低维向量空间分别做量化；上下文提取模块与量化模块连接，用于提取语音特征的上下文关系信息；由基于自注意力的多层神经网络构成；每层神经网络的隐含层均采用Transformer的Encoder结构；输出模块与上下文提取模块连接，用于将上下文关系提取模块中的最后层隐含层进行堆叠进行输出。3.根据权利要求2所述的基于预训练特征表示的语音识别方法，其特征在于，所述语音模型的训练过程包括第一阶段预训练和第二阶段训练：在第一阶段预训练中利用第一数据集进行训练；在训练过程中，通过自监督学习的方式进行训练，提取出第一数据集中的语音数据的共性特征；所述第一数据集中的训练样本为将获取单语语音数据进行预处理后得到的无标注的、单句语音的音频样本；在第二阶段训练利用第二数据集进行训练；在训练过程中，基于预训练后的语音编码模型和第二阶段训练数据集，通过定义的损失函数，采用循环迭代的训练方式来训练语音识别模型，直至网络收敛；所述第二数据集中的训练样本为从第一数据集中随机选取的、经人工进行文本标注的音频样本。4.根据权利要求1所述的基于预训练特征表示的语音识别方法，其特征在于，所述语言模型为字符级语言模型；包括输入层、卷积和嵌入层、基于LSTM的循环神经网络和输出层；所述输入层，用于将输入的词项w
t
传入到基于LSTM的循环神经网络，将与词项w
t
对应的字符序列{char
t1
,char
t2
,
…
,char
tm
}传入到卷积和嵌入层；所述卷积层和嵌入层分别用于处理字符序列和词项；其中，卷积层用于对{char<...

【专利技术属性】
技术研发人员：张新路，钱立恩，马国峰，
申请(专利权)人：中国电子科技集团公司第三十六研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人