神经网络模型建立方法及语音唤醒方法、装置、介质和设备制造方法及图纸

技术编号:20548122 阅读:39 留言:0更新日期:2019-03-09 20:43
本发明专利技术提供了神经网络模型建立方法及语音唤醒方法、装置、介质和设备。该模型建立方法包括提取语音信号中各个帧的声学特征;基于声学特征得到特征图谱;将特征图谱输入神经网络模型并经过卷积层、池化层和全连接层的处理得到唤醒词概率值;根据唤醒词概率值与预设值的比较结果对模型参数进行校正。该语音唤醒方法包括接收用户输入的语音信号;提取语音信号的声学特征;基于声学特征得到特征图谱;利用神经网络模型对特征图谱进行处理以确定唤醒词概率值;基于唤醒词概率值确定是否进行语音唤醒。本发明专利技术通过提取语音信号的声学特征获得特征图谱,并采用神经网络对特征图谱进行处理以得到唤醒词概率值,在降低计算复杂度的同时提高了运算效率。

【技术实现步骤摘要】
神经网络模型建立方法及语音唤醒方法、装置、介质和设备
本专利技术的实施方式涉及神经网络模型及语音唤醒领域,更具体地,本专利技术的实施方式涉及神经网络模型建立方法及语音唤醒方法、装置、介质和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。传统的语音唤醒通常采用基于自动语音识别ASR(AutomaticSpeechRecognition)技术路线的方法。基于ASR技术路线的语音唤醒方案在受限的场景下可以达到实用,但当应用环境较为恶劣,比如远场拾音、超低信噪比、唤醒词非常短时,传统的语音唤醒方案效果往往无法达到使用门槛。传统的基于ASR的语音唤醒方案主要存在以下问题:1.声学模型的训练需要大量的数据。由于训练目标是全部的音素,训练数据必定需要覆盖所有音素,且各音素的覆盖占比也需要达到一定要求,从业界公布的论文来看,要想获得理想性能,训练数据的语音时长一般在上千小时。2.技术方案实现过程复杂。基于ASR的语音唤醒方案的实现至少需要包含的模块包括:解码网络、解码器、声学得分运算、解码后处理,每一个模块的性能好本文档来自技高网...

【技术保护点】
1.一种用于语音唤醒的神经网络模型建立方法,其中,所述神经网络模型包括至少一个卷积层、一个池化层和一个全连接层,所述方法包括:提取语音信号中各个帧的声学特征;基于所述各个帧的声学特征得到所述语音信号的特征图谱;将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理,得到所述语音信号中唤醒词的概率值;根据所述唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。

【技术特征摘要】
1.一种用于语音唤醒的神经网络模型建立方法,其中,所述神经网络模型包括至少一个卷积层、一个池化层和一个全连接层,所述方法包括:提取语音信号中各个帧的声学特征;基于所述各个帧的声学特征得到所述语音信号的特征图谱;将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理,得到所述语音信号中唤醒词的概率值;根据所述唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。2.根据权利要求1所述的方法,其特征在于,将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理,包括:基于所述至少一个卷积层中的第一个卷积层的参数得到所述特征图谱中尚未被处理的特征子图谱;将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据;利用所述池化层对所述多个输出数据进行融合后发送至所述全连接层进行全连接运算处理。3.根据权利要求2所述的方法,其特征在于,在将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据之后,还包括:将所述多个输出数据更新至所述池化层缓冲区;利用所述池化层对所述池化层缓冲区中的所述多个输出数据进行融合。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述至少一个卷积层依次包括:一个标准卷积层;至少一个深度可分离卷积神经网络DS-CNN层。5.根据权利要求1至3中任一项所述的方法,其特征在于,将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据包括:将所述特征子图谱更新到所述至少一个卷积层中的第一个卷积层的输入缓冲区中;对于所述至少一个卷积层中的各个卷积层,进行如下操作:对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据;如果本卷积层不是所述神经网络模型中的最后一个卷积层,将所述本卷积层输出数据更新到所述神经网络模型中的下一个卷积层的输入缓冲区中。6.一种利用神经网络模型进行语音唤醒的方法,其中,所述神经网络模型包括至少一个卷积层,一个池化层,以及一个全连接层,所...

【专利技术属性】
技术研发人员:潘颂声刘东高益
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1