基于深度学习的智慧校园语音识别方法技术

技术编号:33636325 阅读:14 留言:0更新日期:2022-06-02 01:49
本发明专利技术提供一种基于深度学习的智慧校园语音识别方法,该方法包括如下步骤:S1.从语音库中,获取不同词汇语句运用不同人员口音读出的待识别的音频数据;S2.对原始音频样本进行预处;S3.对帧音频进行特征提取,采用梅尔频率倒谱系数特征提取,并对提取出来的参数进行优化,归一化处理;S4.搭建CLDNN语音识别模型并对模型进行优化;S5.采用解码器进行语音识别的解码,构成最终的控制语音识别模型;S6.将音频特征样本输入到训练后的CLDNN的语音识别模型中进行训练,得到控制语音识别模型。采用本发明专利技术的方法语音识别准确率高。发明专利技术的方法语音识别准确率高。发明专利技术的方法语音识别准确率高。

【技术实现步骤摘要】
基于深度学习的智慧校园语音识别方法


[0001]本专利技术涉及人工智能语音识别领域,具体涉及一种基于深度学习的智慧校园语音识别方法。

技术介绍

[0002]随着计算机技术、声学技术的不发展,语音识别被运用到了各类场景中,使得人们的生活日益便利。各种智能终端设备,通过人机交互解放了人们的双手,使得对设备的操控用最初的按键,变成了语音、手势等方式。尤其有代表的智慧校园,运用了各类物联网设备,构建环境全面感知、智慧型、数据化、网络化、协作型一体化的教学、科研、管理和生活服务,并能对教育教学、教育管理进行洞察和预测的智慧学习环境。
[0003]语音识别主要作用就是把一段语音信号转换成相对应的文本信息,系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语音提取特征,经过声学模型表示,通过维特比解码得出识别结果。
[0004]目前各类智慧校园设备中运用的到的语音识别,设计和研发均基于标准普通话,因用户个体发音习惯和方言口语,导致语音识别时准确率较低,存在错误识别、无法识别的情况,影响智慧校园设备运行,降低用户体验度。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种基于深度学习的智慧校园语音识别方法,通过静音切除,降低对后续步骤造成的干扰,为了得到能够描述声音动态特性的参数,采用改进的梅尔频率倒谱系数,通过对梅尔频率倒谱系数进行二次提取,得到表示声音动态特性的参数,使用深层CNN代替原本的浅层CNN,减少语音信息的丢失。
[0006]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0007]一种基于深度学习的智慧校园语音识别方法,该方法包括如下步骤:
[0008]S1.从语音库中,获取不同词汇语句运用不同人员口音读出的待识别的音频数据,具体包括:
[0009]S11.获取智慧校园中智能设备所使用到的控制词汇及语句的样本;
[0010]S12.获取控制词汇及语句的人声朗读语音;
[0011]S13.对样本数据库中的数据进行分类,按照训练的词汇建立单独的文件夹进行保存;
[0012]S2.对原始音频样本进行预处理,具体包括:
[0013]S21.将原始音频的首尾端的静音切除;
[0014]S22.对静音切除后的音频样本进行分帧;
[0015]S23.对帧音频进行加窗处理;
[0016]S24.对加窗后的音频各帧信号,采用快速傅里叶变换算法,得到音频各帧信号的
线性频谱X(k),再对线性频谱X(k)进行取模平方,得到声音信号的能量谱。
[0017]S3.对帧音频进行特征提取,采用梅尔频率倒谱系数特征提取,并对提取出来的参数进行优化,归一化处理;
[0018]S4.搭建CLDNN语音识别模型并对模型进行优化
[0019]S41.搭建CLDNN语音识别模型;
[0020]S42.对搭建好的CLDNN语音模型进行优化,使用深层CNN代替原本的浅层CNN,深层CNN则减少了每层卷积核的数量以及卷积核的本身规模,并增加卷积层来提高CNN的参数,深层的CNN还增加了卷积次数;
[0021]S43.对优化后的模型进行训练和测试;
[0022]S5.采用解码器进行语音识别的解码,构成最终的控制语音识别模型;
[0023]S6.将音频特征样本输入到训练后的CLDNN的语音识别模型中进行训练,得到控制语音识别模型。
[0024]进一步地,步骤S21中所述将原始音频的首尾端的静音切除的方法是,采用语言学软件Praat无需标注自动切除音频首尾静音段,打开Praat之后,设置音频的wav所在的目录,同样的方法设置保存目标wav所在的目录,设置需要对这个wav保存的时长,这里是对首尾,保留0.2秒,要求首尾时长必须大于0.1秒,如果不足0.1秒脚本则不会对音频进行切分,设置完成之后运行脚本,在保存目标wav的目录中,得到静音切除后的音频样本。
[0025]进一步地,步骤S22中所述对静音切除后的音频样本进行分帧,分为20ms一帧,帧移为10ms时长,得到帧音频数据。
[0026]进一步地,步骤S23中所述对帧音频进行加窗处理具体操作方法就是使用窗函数w(n)和s(n)相乘,得到加窗处理的音频信号Sw(n)=s(n)*w(n);对音频信号进行加窗处理时,采用汉明窗函数:
[0027][0028]式中,n为窗的序号,N为窗的个数,π是数学常数。
[0029]进一步地,步骤S3具体包括如下步骤:
[0030]S31.梅尔频率倒谱系数(MFCC)提取,在音频频谱范围内设置若干个Hm(K)带通滤波器形成Mel频率滤波器组,每个Mel频率滤波器组输出对数能量计算,经过离散余弦变换变换得到MFCC语音特征参数;
[0031]S32.对提取出来的参数进行加权、差分、筛选具体是在对音频信号进行MFCC参数的特征提取后,利用公式的差分特征参数提取方法,提取动态Mel参数,得到每个帧音频数据对应的音频特征;
[0032]S33.采用倒谱均值归一化的方式对音频进行归一化处理。
[0033]进一步地,步骤S41.搭建CLDNN语音识别模型,具体是LSTM结合原本的时序信息处理CNN输入的高级特征,最后DNN增加隐层和输出层之间的深度,并对CNN与LSTM处理后的特征进行更深层次的处理,从而获得更强的预测能力,三者构成了CLDNN的整体结构;由于LSTM与两个前馈神经网络首尾相连,定长的前馈神经网络导致只能定长,即建立模型时需要指定输入X的长度;此外CLDNN的两层LSTM相互干涉,即第二LSTM层接受的输入即为第一
LSTM层的输出;CLDNN中使用l或r决定整体模型的设计,l或r指的是若输入帧为x,则输入特征会同时包括x

l到x+r的所有特征;将l或r设定为0,CLDNN在输出后直接连接至Softmax层,并以Softmax层的输出为建模单元序列输出,输入到后续语言模型中。
[0034]有益效果:
[0035]1.本专利技术对原始音频样本进行静音切除,降低对后续步骤造成的干扰。
[0036]2.普通的Mel频率倒谱系数(MFCC)只能描述音频信号的静态特征,然而人的听觉系统对声音的动态特征的敏感度更高。为了得到能够描述声音动态特性的参数,采用改进的梅尔频率倒谱系数,通过对梅尔频率倒谱系数进行二次提取,得到表示声音动态特性的参数。
[0037]3.本专利技术经过CLDNN语音模型进行优化,使用深层CNN代替原本的浅层CNN
[0038]更好的设计CNN层最终输出的规模、以及更加贴合中文语音识别任务的特性。
[0039]第一,深层CNN可以通过设计各层的核大小以及核数量,更容易使首尾的矩阵元素数量相同。在本模型的改进方案中,由于同时输入策略,后续隐藏层需要同时接收到原始输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的智慧校园语音识别方法,其特征在于,该方法包括如下步骤:S1.从语音库中,获取不同词汇语句运用不同人员口音读出的待识别的音频数据,具体包括:S11.获取智慧校园中智能设备所使用到的控制词汇及语句的样本;S12.获取控制词汇及语句的人声朗读语音;S13.对样本数据库中的数据进行分类,按照训练的词汇建立单独的文件夹进行保存;S2.对原始音频样本进行预处理,具体包括:S21.将原始音频的首尾端的静音切除;S22.对静音切除后的音频样本进行分帧;S23.对帧音频进行加窗处理;S24.对加窗后的音频各帧信号,采用快速傅里叶变换算法,得到音频各帧信号的线性频谱X(k),再对线性频谱X(k)进行取模平方,得到声音信号的能量谱;S3.对帧音频进行特征提取,采用梅尔频率倒谱系数特征提取,并对提取出来的参数进行优化,归一化处理;S4.搭建CLDNN语音识别模型并对模型进行优化,具体包括:S41.搭建CLDNN语音识别模型;S42.对搭建好的CLDNN语音模型进行优化,使用深层CNN代替原本的浅层CNN,深层CNN则减少了每层卷积核的数量以及卷积核的本身规模,并增加卷积层来提高CNN的参数,深层的CNN还增加了卷积次数;S43.对优化后的模型进行训练和测试;S5.采用解码器进行语音识别的解码,构成最终的控制语音识别模型;S6.将音频特征样本输入到训练后的CLDNN的语音识别模型中进行训练,得到控制语音识别模型。2.根据权利要求1所述的一种基于深度学习的智慧校园语音识别方法,其特征在于,步骤S21中所述将原始音频的首尾端的静音切除的方法是,采用语言学软件Praat无需标注自动切除音频首尾静音段,打开Praat之后,设置音频的wav所在的目录,同样的方法设置保存目标wav所在的目录,设置需要对这个wav保存的时长,这里是对首尾,保留0.2秒,要求首尾时长必须大于0.1秒,如果不足0.1秒脚本则不会对音频进行切分,设置完成之后运行脚本,在保存目标wav的目录中,得到静音切除后的音频样本。3.根据权利要求1所述的一种基于深度学习的智慧校园语音识别方法...

【专利技术属性】
技术研发人员:刘奕周建伟舒佳根
申请(专利权)人:苏州市职业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1