神经网络模型建立方法及语音唤醒方法、装置、介质和设备制造方法及图纸

技术编号:20548122 阅读:27 留言:0更新日期:2019-03-09 20:43
本发明专利技术提供了神经网络模型建立方法及语音唤醒方法、装置、介质和设备。该模型建立方法包括提取语音信号中各个帧的声学特征;基于声学特征得到特征图谱;将特征图谱输入神经网络模型并经过卷积层、池化层和全连接层的处理得到唤醒词概率值;根据唤醒词概率值与预设值的比较结果对模型参数进行校正。该语音唤醒方法包括接收用户输入的语音信号;提取语音信号的声学特征;基于声学特征得到特征图谱;利用神经网络模型对特征图谱进行处理以确定唤醒词概率值;基于唤醒词概率值确定是否进行语音唤醒。本发明专利技术通过提取语音信号的声学特征获得特征图谱,并采用神经网络对特征图谱进行处理以得到唤醒词概率值,在降低计算复杂度的同时提高了运算效率。

【技术实现步骤摘要】
神经网络模型建立方法及语音唤醒方法、装置、介质和设备
本专利技术的实施方式涉及神经网络模型及语音唤醒领域,更具体地,本专利技术的实施方式涉及神经网络模型建立方法及语音唤醒方法、装置、介质和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。传统的语音唤醒通常采用基于自动语音识别ASR(AutomaticSpeechRecognition)技术路线的方法。基于ASR技术路线的语音唤醒方案在受限的场景下可以达到实用,但当应用环境较为恶劣,比如远场拾音、超低信噪比、唤醒词非常短时,传统的语音唤醒方案效果往往无法达到使用门槛。传统的基于ASR的语音唤醒方案主要存在以下问题:1.声学模型的训练需要大量的数据。由于训练目标是全部的音素,训练数据必定需要覆盖所有音素,且各音素的覆盖占比也需要达到一定要求,从业界公布的论文来看,要想获得理想性能,训练数据的语音时长一般在上千小时。2.技术方案实现过程复杂。基于ASR的语音唤醒方案的实现至少需要包含的模块包括:解码网络、解码器、声学得分运算、解码后处理,每一个模块的性能好坏都会影响最终的唤醒性能,复杂的实现过程也增加了开发难度。3.对于近似词误唤醒高,环境鲁棒性差。同样由于训练目标过多的问题,声学模型训练需要照顾到每个音素的优化,在遇到发音类似的词时,解码得到的声学得分往往跟唤醒词非常相似,无法从现有特征上进行区分,从而导致误唤醒高。另外,要提高环境噪音鲁棒性,需要对训练数据加噪,使训练数据的规模增长数倍至上万小时,而语音唤醒的模型参数规模一般都较小,尤其当使用在移动设备上运行时,小的模型参数往往对于大规模数据的学习不充分,导致环境鲁棒性差。4.运算效率较低。语音唤醒大部分使用场景在于远场的智能设备语音交互,这些终端设备运算能力有限,运算效率是语音唤醒需要考虑的重要方面,传统方案由于训练目标较多,模型参数规模太小会导致效果很差,因此一般参数数量不会太小,另外涉及的运算模块较多也增加了运算复杂度。
技术实现思路
本专利技术实施例提供了神经网络模型建立方法及语音唤醒方法、装置、介质和设备,用以解决现有技术方案存在的训练过程复杂且运算效率低等问题。本专利技术实施例是通过以下技术方案实现的:第一方面,本专利技术实施例提供用于语音唤醒的神经网络模型建立方法,其中,神经网络模型包括至少一个卷积层、一个池化层和一个全连接层,该方法包括:提取语音信号中各个帧的声学特征;基于各个帧的声学特征得到语音信号的特征图谱;将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理,得到语音信号中唤醒词的概率值;根据唤醒词的概率值与预设值的比较结果对神经网络模型的参数进行校正。在本专利技术实施例提供的神经网络模型建立方法中,通过提取语音信号的声学特征并获得特征图谱,以特征图谱作为输入,采用神经网络进行端到端的运算以得到语音信号中的唤醒词的概率值,简化了神经网络模型建立和运算流程,提高了运算效率,并且对神经网络模型的训练数据量的要求也大大降低。在本专利技术的一个实施例中,将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理包括:基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱;将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据;利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。通过上述方法,神经网络模型中的各个卷积层可以并行地进行卷积处理,从而使得运算效率更加高效。在本专利技术的一个实施例中,在将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据之后,还包括:将多个输出数据更新至池化层缓冲区;利用池化层对池化层缓冲区中的多个输出数据进行融合。通过上述方法,神经网络模型中的卷积层与池化层能够同时并行处理,从而进一步提高运算效率。在本专利技术的一个实施例中,特征子图谱的宽度与第一个卷积层的卷积核的宽度相同,从而减少数据重叠,进一步提高运算效率和降低运算复杂度。在本专利技术的一个实施例中,神经网络模型中的卷积层依次包括:一个标准卷积层;至少一个深度可分离卷积神经网络DS-CNN层。在本专利技术的一个实施例中,基于下式确定池化层缓冲区宽度BufferWpool:其中:F为整数变量,Ws为标准卷积层的卷积核的宽度,StepWs为标准卷积层的宽度步长,Wi为第i个DS-CNN层的卷积核宽度,λ为DS-CNN层的数量;在该实施例中还将基于下式确定池化层缓冲区高度BufferHpool:其中:Hinput为特征图谱的高度,StepHs为标准卷积层的高度步长。在本专利技术的一个实施例中,将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据包括:将特征子图谱更新到第一个卷积层的输入缓冲区中;对于各个卷积层,进行如下操作:对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据;如果本卷积层不是最后一个卷积层,将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。通过上述方法,卷积层可以并行处理各自输入缓冲区中的数据,从而进一步提升计算效率。在本专利技术的一个实施例中,对于第一个卷积层,基于下式确定其缓冲区宽度BufferW1:BufferW1=W1;其中W1为第一个卷积层的卷积核宽度。在该实施例中还基于下式确定第一个卷积层的缓冲区高度BufferH1:BufferH1=Hinput;其中Hinput为特征子图谱的高度。按照这一方式,第一个卷积层在宽度方向上的重叠计算得以避免,从而减少了计算量。在本专利技术的一个实施例中,对于第二个至最后一个卷积层,基于下式确定该卷积层的缓冲区宽度BufferW:BufferW=W;其中W为该卷积层的卷积核宽度。在该实施例中还基于下式确定该卷积层的缓冲区高度BufferH:BufferH=Houtput;其中Houtput为上一个卷积层的输出数据的高度。按照这一方式,上述各卷积层在宽度方向上的重叠计算得以避免,从而进一步减少了计算量。在本专利技术的一个实施例中,池化层为平均池化层。在本专利技术的一个实施例中,提取语音信号中各个帧的声学特征包括:基于第一窗长以及第一步长,确定语音信号中的当前帧;提取当前帧的声学特征。在本专利技术的一个实施例中,基于各个帧的声学特征得到语音信号的特征图谱包括:基于下式对各个帧的声学特征进行规整,以获取各个帧的经规整的声学特征:其中:t表示该帧在时域的索引,f表示该帧的频域特征,E(t,f)表示该帧在时域索引t及频域特征f所对应的滤波器组能量,M(t,f)表示该帧在时域索引t及频域特征f所对应的平滑能量,其中,M(t,f)基于下式获得:M(t,f)=(1-s)M(t-1,f)+sE(t,f),其中,s表示平滑系数,M(t-1,f)表示该帧的上一帧所对应的平滑能量,γ,α,δ,∈分别表示常量参数;基于各个帧的经规整的声学特征,确定所述语音信号的特征图谱。通过这一方法,系统在有噪环境下的鲁棒性得以提高,从而更加适应于远场环境下的使用。第二方面,本专利技术实施例提供利用神经网络模型进行语音唤醒的方法,其中,神经网络模型包括至少一个卷积层,一个池化层,以及一个全连接层,该神经网络模型已按照如第一方面的实施例所述的方法建立。本专利技术实本文档来自技高网
...

【技术保护点】
1.一种用于语音唤醒的神经网络模型建立方法,其中,所述神经网络模型包括至少一个卷积层、一个池化层和一个全连接层,所述方法包括:提取语音信号中各个帧的声学特征;基于所述各个帧的声学特征得到所述语音信号的特征图谱;将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理,得到所述语音信号中唤醒词的概率值;根据所述唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。

【技术特征摘要】
1.一种用于语音唤醒的神经网络模型建立方法,其中,所述神经网络模型包括至少一个卷积层、一个池化层和一个全连接层,所述方法包括:提取语音信号中各个帧的声学特征;基于所述各个帧的声学特征得到所述语音信号的特征图谱;将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理,得到所述语音信号中唤醒词的概率值;根据所述唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。2.根据权利要求1所述的方法,其特征在于,将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理,包括:基于所述至少一个卷积层中的第一个卷积层的参数得到所述特征图谱中尚未被处理的特征子图谱;将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据;利用所述池化层对所述多个输出数据进行融合后发送至所述全连接层进行全连接运算处理。3.根据权利要求2所述的方法,其特征在于,在将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据之后,还包括:将所述多个输出数据更新至所述池化层缓冲区;利用所述池化层对所述池化层缓冲区中的所述多个输出数据进行融合。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述至少一个卷积层依次包括:一个标准卷积层;至少一个深度可分离卷积神经网络DS-CNN层。5.根据权利要求1至3中任一项所述的方法,其特征在于,将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据包括:将所述特征子图谱更新到所述至少一个卷积层中的第一个卷积层的输入缓冲区中;对于所述至少一个卷积层中的各个卷积层,进行如下操作:对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据;如果本卷积层不是所述神经网络模型中的最后一个卷积层,将所述本卷积层输出数据更新到所述神经网络模型中的下一个卷积层的输入缓冲区中。6.一种利用神经网络模型进行语音唤醒的方法,其中,所述神经网络模型包括至少一个卷积层,一个池化层,以及一个全连接层,所...

【专利技术属性】
技术研发人员:潘颂声刘东高益
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1