一种基于时延神经网络的声控设备唤醒词识别方法及装置制造方法及图纸

技术编号：23290111 阅读：45 留言：0更新日期：2020-02-08 19:40

本发明专利技术公开了一种基于时延神经网络的声控设备唤醒词识别方法及装置，其中，本发明专利技术的一种基于时延神经网络的声控设备唤醒词识别方法，包括：对待识别的语音数据进行多维Fbank特征提取，将提取到的多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别，并输出识别结果，判断识别结果中的唤醒词的后验概率是否大于预设阈值，若是，则确认待识别的语音数据中包括唤醒词。因为相比传统的神经网络大大减少了需要计算的数据量，且识别模型只需要对唤醒词进行精准识别和训练，故而具有判断准确率高且识别速度快的优点，能够有效提高用户体验，使用户说出唤醒词会能够快速唤醒声控设备，防止因唤醒失败或唤醒速度慢降低用户体验。

A wake-up word recognition method and device for voice control equipment based on delay neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时延神经网络的声控设备唤醒词识别方法及装置
本专利技术涉及语音识别
，特别是涉及一种基于时延神经网络的声控设备唤醒词识别方法及装置。
技术介绍
随着科技的发展，语音唤醒技术在声控设备或具备人机语音交互的设备中的应用越来越广泛，允许用户与电子设备之间无需手动交互，用户可以通过说出唤醒词，即可激活声控设备或具备人机语音交互的设备中相应的处理模块。为了提高唤醒词唤醒声控设备或具备人机语音交互的设备成功率以及设备的响应速度，人们研究了利用全连接神经网络、卷积神经网络(CNNs)和循环神经网路(RNNs)相结合来实现语音唤醒算法，人们也研究了RNN和CNN相结合的算法，甚至研究了TDNN+HMM(其中TDNN具体指Time-DelayNeuralNetwork,时延神经网络,HMM具体指HiddenMarkovModel，隐马尔科夫模型)相结合的算法。但是这些方法中都需要涉及几种不同的神经网络模型,其结构复杂且计算量大，故而上述的神经网络模型难以同时提高唤醒词唤醒设备的成功率及响应速度。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于时延神经网络的声控设备唤醒词识别方法及装置，能够解决传统的神经网络模型难以同时提高唤醒词唤醒设备的成功率及响应速度的问题。为解决上述技术问题，本专利技术的采用的一个技术方案是：提供一种基于时延神经网络的声控设备唤醒词识别方法，包括：对待识别的语音数据进行多维Fbank特征提取；将提取到的所述多维Fbank特征送入预...

【技术保护点】
1.一种基于时延神经网络的声控设备唤醒词识别方法，其特征在于，包括：/n对待识别的语音数据进行多维Fbank特征提取；/n将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别，并输出识别结果；/n判断所述识别结果中的唤醒词的后验概率是否大于预设阈值，若是，则确认所述待识别的语音数据中包括唤醒词；/n其中，所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到。/n

【技术特征摘要】
1.一种基于时延神经网络的声控设备唤醒词识别方法，其特征在于，包括：
对待识别的语音数据进行多维Fbank特征提取；
将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别，并输出识别结果；
判断所述识别结果中的唤醒词的后验概率是否大于预设阈值，若是，则确认所述待识别的语音数据中包括唤醒词；
其中，所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到。

2.根据权利要求1所述的一种基于时延神经网络的声控设备唤醒词识别方法，其特征在于，
所述唤醒词识别模型由作为第一层的音素-时延神经网络的输出层与作为第二层词-时延神经网络输入层相连接后经训练得到。

3.根据权利要求2所述的一种基于时延神经网络的声控设备唤醒词识别方法，其特征在于，所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到，还包括：
从标记有唤醒词的样本语音提取多维Fbank特征；
将提取到的所述多维Fbank特征输入所述所述唤醒词识别模型中进行训练；
达到预设的epoch迭代轮数时停止训练。

4.根据权利要求1所述的一种基于时延神经网络的声控设备唤醒词识别方法，其特征在于，所述对所述待识别的语音数据进行多维Fbank特征提取，还包括：
对所述待识别的语音数据进行分帧处理，每帧的帧长范围为10ms～40ms,帧与帧之间的帧移为0ms～20ms，共提取40～100帧语音信号；
对每一帧的所述语音信号进行多维Fbank特征提取。

5.根据权利要求4所述的一种基于时延神经网络的声控设备唤醒词识别方法，其特征在于，所述对所述待识别的语音数据进行分帧处理，每帧的帧长范围为10ms～40ms,帧与帧之间的帧移为0ms～20ms，共提取40～100帧语音信号，还包括：
对所述40～100帧语音信号进行跳帧处理，从起始帧开始，忽略每间隔的1-5帧，对忽略后的剩余所述帧的所述语音信号进行多维Fbank特征...

【专利技术属性】
技术研发人员：刘博卿，王健宗，贾雪丽，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人