语音唤醒方法和装置制造方法及图纸

技术编号：12403169 阅读：136 留言：0更新日期：2015-11-28 17:34

本发明专利技术公开了一种语音唤醒方法和装置，其中，语音唤醒方法包括：S1、获取唤醒词，并根据唤醒词生成符合预设条件的垃圾词，以及根据唤醒词和垃圾词构建识别网络；S2、获取用户输入的语音信息，将语音信息切分为多个语音帧，并提取每个语音帧中的声学特征；S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算，以获得每个声学特征的声学特征得分；S4、根据声学特征得分从识别网络中选取最优识别路径，以及将最优识别路径对应的语音结果作为识别结果；以及S5、根据识别结果计算识别结果对应的置信度，并根据置信度获得唤醒结果并输出。本发明专利技术实施例的语音唤醒方法和装置，计算量小，功耗低，能够降低语音唤醒的误报率，提升用户使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音唤醒方法和装置
本专利技术涉及语音识别
，尤其涉及一种语音唤醒方法和装置。
技术介绍
语音唤醒技术是语音识别技术中重要分支，语音唤醒技术主要应用于车载导航、智能家居等领域，用户可通过语音指令启动程序或者服务，而无需手动操作。目前，语音唤醒技术主要分为三种：第一种方式为基于置信度的语音唤醒技术，通过计算用户输入的语音信息的置信度，并根据置信度判断是否语音唤醒。第二种方式为基于识别引擎的语音唤醒技术，采用语言模型作为解码网络，对用户输入的语音信息进行解码识别，再根据识别出的识别结果判断是否语音唤醒。第三种方式为基于垃圾词的语音唤醒技术，通过唤醒词和唤醒词对应的垃圾词生成识别网络，基于识别网络对用户输入的语音信息进行识别，再根据识别出的识别结果判断该识别结果是否为唤醒词，如果是则唤醒成功，如果否则无法唤醒。但是，第一种方式仅通过置信度判断是否语音唤醒，由于环境的不同，置信度的预设阈值也会相应改变，因此预设阈值难以确定，具有局限性；第二种方式计算量大，功耗高，实用性差；第三种方式在噪音环境中很难唤醒成功或者用户说出的是否为唤醒词都会唤醒，误报率高，用户体验差。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题。为此，本专利技术需要提供一种语音唤醒方法，计算量小，功耗低，能够降低语音唤醒的误报率，提升用户使用体验。此外，本专利技术还需要提供一种语音唤醒装置。为解决上述技术问题中的至少一个，根据本专利技术第一方面实施例提出了一种语音唤醒方法，包括以下步骤：S1、获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识...
语音唤醒方法和装置

【技术保护点】
一种语音唤醒方法，其特征在于，包括以下步骤：S1、获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识别网络；S2、获取用户输入的语音信息，将所述语音信息切分为多个语音帧，并提取所述每个语音帧中的声学特征；S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算，以获得所述每个声学特征的声学特征得分；S4、根据所述声学特征得分从所述识别网络中选取最优识别路径，以及将所述最优识别路径对应的语音结果作为所述识别结果；以及S5、根据所述识别结果计算所述识别结果对应的置信度，并根据所述置信度获得唤醒结果并输出。

【技术特征摘要】
1.一种语音唤醒方法，其特征在于，包括以下步骤：S1、获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识别网络；S2、获取用户输入的语音信息，将所述语音信息切分为多个语音帧，并提取所述每个语音帧中的声学特征；S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算，以获得所述每个声学特征的声学特征得分；S4、根据所述声学特征得分从所述识别网络中选取最优识别路径，以及将所述最优识别路径对应的语音结果作为所述识别结果；以及S5、根据所述识别结果计算所述识别结果对应的置信度，并根据所述置信度获得唤醒结果并输出；在对所述声学特征进行似然计算之后，还包括：计算下一语音帧的裁剪门限；根据所述裁剪门限裁剪所述识别网络中与所述下一语音帧无关的节点，并对所述下一语音帧对应的声学特征进行似然计算。2.如权利要求1所述的方法，其特征在于，所述根据所述唤醒词生成符合预设条件的垃圾词，包括：获取所述唤醒词对应的第一状态序列；从垃圾词典中获取与所述第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词，其中，所述第一编辑距离小于所述第二编辑距离。3.如权利要求1所述的方法，其特征在于，所述根据所述唤醒词和所述垃圾词构建识别网络，包括：从真实语音词典中获取通用垃圾词；将所述唤醒词的第一个字与通用垃圾词串联生成网络A；以及将所述网络A、所述垃圾词、所述唤醒词和所述通用垃圾词进行并联，生成所述识别网络。4.如权利要求1所述的方法，其特征在于，所述计算下一语音帧的裁剪门限，包括：获取并计算所述识别网络中所有活动节点的声学特征得分的第一平均值；获取并计算所述识别网络中M个声学特征得分最大的节点的声学特征得分的第二平均值；以及根据所述第一平均值和所述第二平均值计算所述裁剪门限。5.如权利要求1所述的方法，其特征在于，所述步骤S5，包括：获取并计算所述识别网络中所有活动节点的声学特征得分的第一平均值；获取并计算所述识别网络中所述唤醒词对应的Y个节点的声学特征得分的第三平均值；以及根据所述第一平均值和所述第三平均值计算所述置信度。6.如权利要求1所述的方法，其特征在于，所述步骤S5，还包括：基于filler模型计算出所述置信度。7.一种语音唤醒装置...

【专利技术属性】
技术研发人员：唐立亮，贾磊，彭守业，牛建伟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人