基于深度学习的智慧校园语音识别方法技术

技术编号：33636325 阅读：14 留言：0更新日期：2022-06-02 01:49

本发明专利技术提供一种基于深度学习的智慧校园语音识别方法，该方法包括如下步骤：S1.从语音库中，获取不同词汇语句运用不同人员口音读出的待识别的音频数据；S2.对原始音频样本进行预处；S3.对帧音频进行特征提取，采用梅尔频率倒谱系数特征提取，并对提取出来的参数进行优化，归一化处理；S4.搭建CLDNN语音识别模型并对模型进行优化；S5.采用解码器进行语音识别的解码，构成最终的控制语音识别模型；S6.将音频特征样本输入到训练后的CLDNN的语音识别模型中进行训练，得到控制语音识别模型。采用本发明专利技术的方法语音识别准确率高。发明专利技术的方法语音识别准确率高。发明专利技术的方法语音识别准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的智慧校园语音识别方法

[0001]本专利技术涉及人工智能语音识别领域，具体涉及一种基于深度学习的智慧校园语音识别方法。

技术介绍

[0002]随着计算机技术、声学技术的不发展，语音识别被运用到了各类场景中，使得人们的生活日益便利。各种智能终端设备，通过人机交互解放了人们的双手，使得对设备的操控用最初的按键，变成了语音、手势等方式。尤其有代表的智慧校园，运用了各类物联网设备，构建环境全面感知、智慧型、数据化、网络化、协作型一体化的教学、科研、管理和生活服务，并能对教育教学、教育管理进行洞察和预测的智慧学习环境。
[0003]语音识别主要作用就是把一段语音信号转换成相对应的文本信息，系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型，与发声词典、语言模型组成网络，对新来的语音提取特征，经过声学模型表示，通过维特比解码得出识别结果。
[0004]目前各类智慧校园设备中运用的到的语音识别，设计和研发均基于标准普通话，因用户个体发音习惯和方言口语，导致语音识别时准确率较低，存在错误识别、无法识别的情况，影响智慧校园设备运行，降低用户体验度。

技术实现思路

[0005]针对现有技术的不足，本专利技术提供了一种基于深度学习的智慧校园语音识别方法，通过静音切除，降低对后续步骤造成的干扰，为了得到能够描述声音动态特性的参数，采用改进的梅尔频率倒谱系数，通过对梅尔频率倒谱系数进行二次提取，得到表示声音动态特性的参数...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的智慧校园语音识别方法，其特征在于，该方法包括如下步骤：S1.从语音库中，获取不同词汇语句运用不同人员口音读出的待识别的音频数据，具体包括：S11.获取智慧校园中智能设备所使用到的控制词汇及语句的样本；S12.获取控制词汇及语句的人声朗读语音；S13.对样本数据库中的数据进行分类，按照训练的词汇建立单独的文件夹进行保存；S2.对原始音频样本进行预处理，具体包括：S21.将原始音频的首尾端的静音切除；S22.对静音切除后的音频样本进行分帧；S23.对帧音频进行加窗处理；S24.对加窗后的音频各帧信号，采用快速傅里叶变换算法，得到音频各帧信号的线性频谱X(k)，再对线性频谱X(k)进行取模平方，得到声音信号的能量谱；S3.对帧音频进行特征提取，采用梅尔频率倒谱系数特征提取，并对提取出来的参数进行优化，归一化处理；S4.搭建CLDNN语音识别模型并对模型进行优化，具体包括：S41.搭建CLDNN语音识别模型；S42.对搭建好的CLDNN语音模型进行优化，使用深层CNN代替原本的浅层CNN，深层CNN则减少了每层卷积核的数量以及卷积核的本身规模，并增加卷积层来提高CNN的参数，深层的CNN还增加了卷积次数；S43.对优化后的模型进行训练和测试；S5.采用解码器进行语音识别的解码，构成最终的控制语音识别模型；S6.将音频特征样本输入到训练后的CLDNN的语音识别模型中进行训练，得到控制语音识别模型。2.根据权利要求1所述的一种基于深度学习的智慧校园语音识别方法，其特征在于，步骤S21中所述将原始音频的首尾端的静音切除的方法是，采用语言学软件Praat无需标注自动切除音频首尾静音段，打开Praat之后，设置音频的wav所在的目录，同样的方法设置保存目标wav所在的目录，设置需要对这个wav保存的时长，这里是对首尾，保留0.2秒，要求首尾时长必须大于0.1秒，如果不足0.1秒脚本则不会对音频进行切分，设置完成之后运行脚本，在保存目标wav的目录中，得到静音切除后的音频样本。3.根据权利要求1所述的一种基于深度学习的智慧校园语音识别方法...

【专利技术属性】
技术研发人员：刘奕，周建伟，舒佳根，
申请(专利权)人：苏州市职业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人