一种基于时延神经网络的声控设备唤醒词识别方法及装置制造方法及图纸

技术编号:23290111 阅读:45 留言:0更新日期:2020-02-08 19:40
本发明专利技术公开了一种基于时延神经网络的声控设备唤醒词识别方法及装置,其中,本发明专利技术的一种基于时延神经网络的声控设备唤醒词识别方法,包括:对待识别的语音数据进行多维Fbank特征提取,将提取到的多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别,并输出识别结果,判断识别结果中的唤醒词的后验概率是否大于预设阈值,若是,则确认待识别的语音数据中包括唤醒词。因为相比传统的神经网络大大减少了需要计算的数据量,且识别模型只需要对唤醒词进行精准识别和训练,故而具有判断准确率高且识别速度快的优点,能够有效提高用户体验,使用户说出唤醒词会能够快速唤醒声控设备,防止因唤醒失败或唤醒速度慢降低用户体验。

A wake-up word recognition method and device for voice control equipment based on delay neural network

【技术实现步骤摘要】
一种基于时延神经网络的声控设备唤醒词识别方法及装置
本专利技术涉及语音识别
,特别是涉及一种基于时延神经网络的声控设备唤醒词识别方法及装置。
技术介绍
随着科技的发展,语音唤醒技术在声控设备或具备人机语音交互的设备中的应用越来越广泛,允许用户与电子设备之间无需手动交互,用户可以通过说出唤醒词,即可激活声控设备或具备人机语音交互的设备中相应的处理模块。为了提高唤醒词唤醒声控设备或具备人机语音交互的设备成功率以及设备的响应速度,人们研究了利用全连接神经网络、卷积神经网络(CNNs)和循环神经网路(RNNs)相结合来实现语音唤醒算法,人们也研究了RNN和CNN相结合的算法,甚至研究了TDNN+HMM(其中TDNN具体指Time-DelayNeuralNetwork,时延神经网络,HMM具体指HiddenMarkovModel,隐马尔科夫模型)相结合的算法。但是这些方法中都需要涉及几种不同的神经网络模型,其结构复杂且计算量大,故而上述的神经网络模型难以同时提高唤醒词唤醒设备的成功率及响应速度。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于时延神经网络的声控设备唤醒词识别方法及装置,能够解决传统的神经网络模型难以同时提高唤醒词唤醒设备的成功率及响应速度的问题。为解决上述技术问题,本专利技术的采用的一个技术方案是:提供一种基于时延神经网络的声控设备唤醒词识别方法,包括:对待识别的语音数据进行多维Fbank特征提取;将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别,并输出识别结果;判断所述识别结果中的唤醒词的后验概率是否大于预设阈值,若是,则确认所述待识别的语音数据中包括唤醒词;其中,所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到。其中,所述唤醒词识别模型由作为第一层的音素-时延神经网络的输出层与作为第二层词-时延神经网络输入层相连接后经训练得到。其中,所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到,还包括:从标记有唤醒词的样本语音提取多维Fbank特征;将提取到的所述多维Fbank特征输入所述所述唤醒词识别模型中进行训练;达到预设的epoch迭代轮数时停止训练。其中,所述对所述待识别的语音数据进行多维Fbank特征提取,还包括:对所述待识别的语音数据进行分帧处理,每帧的帧长范围为10ms~40ms,帧与帧之间的帧移为0ms~20ms,共提取40~100帧语音信号;对每一帧的所述语音信号进行多维Fbank特征提取。其中,所述对所述待识别的语音数据进行分帧处理,每帧的帧长范围为10ms~40ms,帧与帧之间的帧移为0ms~20ms,共提取40~100帧语音信号,还包括:对所述40~100帧语音信号进行跳帧处理,从起始帧开始,忽略每间隔的1-5帧,对忽略后的剩余所述帧的所述语音信号进行多维Fbank特征提取。进一步地,对所述待识别的语音数据进行分帧处理,每帧的帧长范围为25ms,帧与帧之间的帧移为10ms,共提取80帧语音信号,对所述80帧语音信号进行跳帧处理,从起始帧开始,忽略每间隔的4帧,对忽略后的剩余所述帧的所述语音信号进行41维Fbank特征提取。其中,所述输出识别结果之后,还包括:所述输出识别结果包括每一帧的所述语音信号中的唤醒词的后验概率序列和非唤醒词的后验概率序列,通过移动平均滤波器对所述识别结果中的唤醒词的后验概率进行平滑处理,计算公式如下所示:其中,N为对所述待识别的语音数据进行分帧处理后提取的语音信号的帧数,输入值x为每一帧的所述语音信号中的唤醒词的后验概率序列,输出值y为所述识别结果中的唤醒词的后验概率。其中,为解决上述技术问题,本专利技术的采用的另一个技术方案是:提供一种基于时延神经网络的声控设备唤醒词识别装置,包括:提取模块,用于对待识别的语音数据进行多维Fbank特征提取;识别模块,用于将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别,并输出识别结果;判断模块,判断所述识别结果中的唤醒词的后验概率是否大于预设阈值,若是,则确认所述待识别的语音数据中包括唤醒词;其中,所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到。其中,为解决上述技术问题,本专利技术的采用的另一个技术方案是:提供、一种计算机设备,包括:包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述一种基于时延神经网络的声控设备唤醒词识别方法的步骤。其中,为解决上述技术问题,本专利技术的采用的另一个技术方案是:提供、一种计算机可读存储介质,包括:所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述一种基于时延神经网络的声控设备唤醒词识别方法的步骤。以上方案中的一种基于时延神经网络的声控设备唤醒词识别方法,通过对待识别的语音数据进行多维Fbank特征提取,将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别,并输出识别结果,判断所述识别结果中的唤醒词的后验概率是否大于预设阈值,若是,则确认所述待识别的语音数据中包括唤醒词。因为相比传统的神经网络大大减少了需要计算的数据量,且识别模型只需要对唤醒词进行精准识别和训练,故而具有判断准确率高且识别速度快的优点,能够有效提高用户体验,使用户说出唤醒词会能够快速唤醒声控设备,防止因唤醒失败或唤醒速度慢降低用户体验。附图说明为了更清楚地说明本专利技术的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的一种基于时延神经网络的声控设备唤醒词识别方法一实施例的流程示意图;图2为本专利技术的一种基于时延神经网络的声控设备唤醒词识别方法另一实施例的流程示意图;图3为本专利技术的一种基于时延神经网络的声控设备唤醒词识别装置的结构示意图;图4是本专利技术的一种计算机设备的一实施例的结构示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人本文档来自技高网
...

【技术保护点】
1.一种基于时延神经网络的声控设备唤醒词识别方法,其特征在于,包括:/n对待识别的语音数据进行多维Fbank特征提取;/n将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别,并输出识别结果;/n判断所述识别结果中的唤醒词的后验概率是否大于预设阈值,若是,则确认所述待识别的语音数据中包括唤醒词;/n其中,所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到。/n

【技术特征摘要】
1.一种基于时延神经网络的声控设备唤醒词识别方法,其特征在于,包括:
对待识别的语音数据进行多维Fbank特征提取;
将提取到的所述多维Fbank特征送入预先训练好的唤醒词识别模型中进行识别,并输出识别结果;
判断所述识别结果中的唤醒词的后验概率是否大于预设阈值,若是,则确认所述待识别的语音数据中包括唤醒词;
其中,所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到。


2.根据权利要求1所述的一种基于时延神经网络的声控设备唤醒词识别方法,其特征在于,
所述唤醒词识别模型由作为第一层的音素-时延神经网络的输出层与作为第二层词-时延神经网络输入层相连接后经训练得到。


3.根据权利要求2所述的一种基于时延神经网络的声控设备唤醒词识别方法,其特征在于,所述唤醒词识别模型由作为第一层的音素-时延神经网络与作为第二层词-时延神经网络相连接后经训练得到,还包括:
从标记有唤醒词的样本语音提取多维Fbank特征;
将提取到的所述多维Fbank特征输入所述所述唤醒词识别模型中进行训练;
达到预设的epoch迭代轮数时停止训练。


4.根据权利要求1所述的一种基于时延神经网络的声控设备唤醒词识别方法,其特征在于,所述对所述待识别的语音数据进行多维Fbank特征提取,还包括:
对所述待识别的语音数据进行分帧处理,每帧的帧长范围为10ms~40ms,帧与帧之间的帧移为0ms~20ms,共提取40~100帧语音信号;
对每一帧的所述语音信号进行多维Fbank特征提取。


5.根据权利要求4所述的一种基于时延神经网络的声控设备唤醒词识别方法,其特征在于,所述对所述待识别的语音数据进行分帧处理,每帧的帧长范围为10ms~40ms,帧与帧之间的帧移为0ms~20ms,共提取40~100帧语音信号,还包括:
对所述40~100帧语音信号进行跳帧处理,从起始帧开始,忽略每间隔的1-5帧,对忽略后的剩余所述帧的所述语音信号进行多维Fbank特征...

【专利技术属性】
技术研发人员:刘博卿王健宗贾雪丽
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1