基于解码网络的语音唤醒方法和装置制造方法及图纸

技术编号：23559952 阅读：16 留言：0更新日期：2020-03-25 05:06

本发明专利技术公开基于解码网络的语音唤醒方法和装置，其中，一种基于解码网络的语音唤醒方法，包括：获取构建的解码网络中的多条解码路径，其中，所述解码路径中包含至少一个建模单元；基于各解码路径获取各解码路径中的各建模单元的边界；获取并计算待检测语音的每一时间帧语音的声学后验概率，将声学后验概率作为解码网络的输入；利用各建模单元的边界对每一时间帧语音的声学后验概率进行平滑处理；获取经过平滑处理后解码网络输出的解码结果。本申请的方法和装置提供的方案可以利用解码路径得到各建模单元的边界，根据建模单元边界对后验进行平滑，计算出的更加精确的置信度，从而提升唤醒精度。

Speech wake-up method and device based on decoding network

全部详细技术资料下载

【技术实现步骤摘要】
基于解码网络的语音唤醒方法和装置
本专利技术属于语音唤醒
，尤其涉及基于解码网络的语音唤醒方法和装置。
技术介绍
目前市面上的大部分产品用的语音唤醒都是基于Kws(KeywordSearch，关键字检测)唤醒，很少有基于解码的方式。当前解决唤醒率的方式，还是主要基于提升声学模型的鲁棒性上。Kws唤醒是基于深度模型计算出的声学后验，对唤醒词中的各个字按照固定时长进行加窗平滑后计算整个词的confidence(置信度)，当confidence超过一定阈值时，执行唤醒。专利技术人在实现本申请的过程中发现，上述方案至少存在以下缺陷：基于固定时长的平滑窗，导致语速会对confidence造成很大影响。比如在快语速时，窗长范围内包含了一个以上的拼音，这样平滑出来的拼音后验在计算confidence时会产生很大误差，从而形成误判。
技术实现思路
本专利技术实施例提供一种基于解码网络的语音唤醒方法和装置，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种基于解码网络的语音唤醒方法，包括：获取构建的解码网络中的多条解码路径，其中，所述解码路径中包含至少一个建模单元；基于各解码路径获取各解码路径中的各建模单元的边界；获取并计算待检测语音的每一时间帧语音的声学后验概率，将所述声学后验概率作为所述解码网络的输入；利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理；以及获取经过平滑处理后所述解码网络输出的解码结果。第二方面，本专利技术实施例提供一种...

【技术保护点】
1.一种基于解码网络的语音唤醒方法，包括：/n获取构建的解码网络中的多条解码路径，其中，所述解码路径中包含至少一个建模单元；/n基于各解码路径获取各解码路径中的各建模单元的边界；/n获取并计算待检测语音的每一时间帧语音的声学后验概率，将所述声学后验概率作为所述解码网络的输入；/n利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理；/n获取经过平滑处理后所述解码网络输出的解码结果。/n

【技术特征摘要】
1.一种基于解码网络的语音唤醒方法，包括：
获取构建的解码网络中的多条解码路径，其中，所述解码路径中包含至少一个建模单元；
基于各解码路径获取各解码路径中的各建模单元的边界；
获取并计算待检测语音的每一时间帧语音的声学后验概率，将所述声学后验概率作为所述解码网络的输入；
利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理；
获取经过平滑处理后所述解码网络输出的解码结果。

2.根据权利要求1所述的方法，其中，所述解码网络基于唤醒词构建，在所述获取经过平滑处理后所述解码网络输出的解码结果之后，所述方法还包括：
取所述解码结果中的nbest结果；
判断nbest结果是否为空；
若nbest结果不为空，分别基于所述nbest结果的顺序判断某一nbest结果是否包含所述唤醒词，并分别计算所述某一nbest结果的置信度；
当且仅当所述某一nbest结果中包含所述唤醒词以及所述某一nbest结果的置信度大于预设唤醒阈值时，执行唤醒操作。

3.根据权利要求2所述的方法，其中，在判断nbest结果是否为空之后，所述方法还包括：
若所述nbest结果为空，不执行唤醒操作。

4.根据权利要求2所述的方法，其中，所述方法还包括：
若所述某一nbest结果不包含所述唤醒词和/或所述某一nbest结果的置信度小于等于所述预设唤醒阈值时，不执行唤醒操作。

5.根据权利要求2-4中任一项所述的方法，其中，构建的解码网络包括采用以下方式构建：
使用唤醒词和filler构建wfst解码网络，其中所述wfst解码网络中包括对应存储有多个状态的数据信息的建模单元，各建模单元之间通过边连接，所述边上存储有所述解码网络的输入。

6.根据权利要求5所述的方法，其中，所述利用各建模单元...

【专利技术属性】
技术研发人员：陈福松，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人