语音识别方法及装置制造方法及图纸

技术编号：28216936 阅读：63 留言：0更新日期：2021-04-28 09:30

本发明专利技术实施例提供一种语音识别方法及装置，通过动态卷积神经网络模型对音频文件进行识别，得到多个特征向量，进而确定出每个特征向量对应的文字标识，最终根据各个文字标识对应的文字得到文本，该语音识别过程中采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等。系统崩溃等。系统崩溃等。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法及装置

[0001]本专利技术实施例涉及人工智能(Artificial Intelligence，AI)
，尤其涉及一种语音识别方法及装置。

技术介绍

[0002]目前，语音识别在智能家居、智能车载、智能客服机器人等方面被越来越广泛的使用，未来将会深入到人们学习、生活和工作的各个环节。
[0003]语音识别过程中，预先训练好语音识别模型，并对用户发出的语音进行录制得到音频文件，然后利用语音识别模型对音频文件进行识别，从而将该音频文件转换为文本。常见的语音识别模型包括基于传统循环神经网络(Recurrent Neural Network，RNN)和连接器时间分类法(Connectionist Temporal Classification，CTC)的语音识别模型、基于卷积神经网络(Convolutional Neural Networks，CNN)和CTC的语音识别模型、基于编解码(transfomer encoder-decoder)的神经网络结构的语音识别模型等。
[0004]经研究发现：上述的各种语音模型训练过程中需要更多的训练数据，训练出的语音模型的参数较多，导致使用该语音模型进行语音识别时，需要占用较多的CPU等计算资源，容易发生系统崩溃等现象。

技术实现思路

[0005]本专利技术实施例提供一种语音识别方法及装置，采用动态卷积神经网络而非注意力机，而动态卷积神经网络模型的参数较少，语音识别过程中所需的CPU等计算资源较少，提高识别效率的同时避免发生系统崩溃等...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：接收用户输入的请求指令，所述请求指令用于请求将音频文件转换为文本；利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量，所述特征向量包含所述音频文件的音频特征；确定所述至少一个特征向量中的每个特征向量对应的文字标识ID，不同的文字ID对应不同的文字；确定各所述文字ID对应的文字，以得到所述文本。2.根据权利要求1所述的方法，其特征在于，所述利用预先训练好的动态卷积神经网络模型对所述音频文件进行识别，以得到至少一个特征向量之前，还包括：对训练样本集合中的每一个训练样本提取音频特征，所述训练样本集合包含至少一个训练样本，所述训练样本为包含音频信号的音频文件；使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型。3.根据权利要求2所述的方法，其特征在于，所述动态卷积神经网络模型包括依次连接的全连接层、highway层、动态卷积神经网络层和输出层，所述使用所述训练样本集合中训练样本的音频特征进行模型训练，以得到所述动态卷积神经网络模型，包括：初始化所述动态卷积神经网络模型的所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层；将所述训练样本集合中的训练样本的音频特征输入至初始化后的动态卷积神经网络模型，以对所述全连接层、所述highway层、所述动态卷积神经网络层和所述输出层进行训练，得到输出结果；利用预设的损失函数处理所述输出结果，得到梯度值；根据所述梯度值更新初始化后的全连接层、所述highway层、所述动态卷积神经网络层和所述输出层的参数，以得到所述动态卷积神经网络模型。4.根据权利要求3所述的方法，其特征在于，还包括：根据所述输出结果和所述损失函数确定损失值；判断所述损失值是否小于预设值，若所述损失值小于预设值，则停止模型训练。5.根据权利要求2～4任一项所述的方法，其特征在于，所述训练样本依次包含第一时长的静音信号、第二时长的音频信号和第三时长的静音信号，所述对训练样本集合中的每一个训练样本提取音频特征之前，还包括：对所述训...

【专利技术属性】
技术研发人员：佟津乐，朱元婧，景少玲，谢海华，
申请(专利权)人：北大方正信息产业集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人