语音唤醒方法和装置制造方法及图纸

技术编号:12403169 阅读:136 留言:0更新日期:2015-11-28 17:34
本发明专利技术公开了一种语音唤醒方法和装置,其中,语音唤醒方法包括:S1、获取唤醒词,并根据唤醒词生成符合预设条件的垃圾词,以及根据唤醒词和垃圾词构建识别网络;S2、获取用户输入的语音信息,将语音信息切分为多个语音帧,并提取每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算,以获得每个声学特征的声学特征得分;S4、根据声学特征得分从识别网络中选取最优识别路径,以及将最优识别路径对应的语音结果作为识别结果;以及S5、根据识别结果计算识别结果对应的置信度,并根据置信度获得唤醒结果并输出。本发明专利技术实施例的语音唤醒方法和装置,计算量小,功耗低,能够降低语音唤醒的误报率,提升用户使用体验。

【技术实现步骤摘要】
语音唤醒方法和装置
本专利技术涉及语音识别
,尤其涉及一种语音唤醒方法和装置。
技术介绍
语音唤醒技术是语音识别技术中重要分支,语音唤醒技术主要应用于车载导航、智能家居等领域,用户可通过语音指令启动程序或者服务,而无需手动操作。目前,语音唤醒技术主要分为三种:第一种方式为基于置信度的语音唤醒技术,通过计算用户输入的语音信息的置信度,并根据置信度判断是否语音唤醒。第二种方式为基于识别引擎的语音唤醒技术,采用语言模型作为解码网络,对用户输入的语音信息进行解码识别,再根据识别出的识别结果判断是否语音唤醒。第三种方式为基于垃圾词的语音唤醒技术,通过唤醒词和唤醒词对应的垃圾词生成识别网络,基于识别网络对用户输入的语音信息进行识别,再根据识别出的识别结果判断该识别结果是否为唤醒词,如果是则唤醒成功,如果否则无法唤醒。但是,第一种方式仅通过置信度判断是否语音唤醒,由于环境的不同,置信度的预设阈值也会相应改变,因此预设阈值难以确定,具有局限性;第二种方式计算量大,功耗高,实用性差;第三种方式在噪音环境中很难唤醒成功或者用户说出的是否为唤醒词都会唤醒,误报率高,用户体验差。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题。为此,本专利技术需要提供一种语音唤醒方法,计算量小,功耗低,能够降低语音唤醒的误报率,提升用户使用体验。此外,本专利技术还需要提供一种语音唤醒装置。为解决上述技术问题中的至少一个,根据本专利技术第一方面实施例提出了一种语音唤醒方法,包括以下步骤:S1、获取唤醒词,并根据所述唤醒词生成符合预设条件的垃圾词,以及根据所述唤醒词和所述垃圾词构建识别网络;S2、获取用户输入的语音信息,将所述语音信息切分为多个语音帧,并提取所述每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算,以获得所述每个声学特征的声学特征得分;S4、根据所述声学特征得分从所述识别网络中选取最优识别路径,以及将所述最优识别路径对应的语音结果作为所述识别结果;以及S5、根据所述识别结果计算所述识别结果对应的置信度,并根据所述置信度获得唤醒结果并输出。本专利技术实施例的语音唤醒方法,通过唤醒词和符合预设条件的垃圾词构建识别网络,然后基于卷积神经网络声学模型对用户输入的语音信息的声学特征进行似然计算,获得识别结果,并计算出识别结果对应的置信度,最终根据置信度获得唤醒结果并输出,环境鲁棒性好,无需根据环境改变预设阈值,计算量小,功耗低,降低了语音唤醒的误报率,进而提升用户使用体验。本专利技术第二方面实施例提供了一种语音唤醒装置,包括:构建模块,用于获取唤醒词,并根据所述唤醒词生成符合预设条件的垃圾词,以及根据所述唤醒词和所述垃圾词构建识别网络;提取模块,用于获取用户输入的语音信息,将所述语音信息切分为多个语音帧,并提取所述每个语音帧中的声学特征;计算模块,用于基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算,以获得所述每个声学特征的声学特征得分;选取模块,用于根据所述声学特征得分从所述识别网络中选取最优识别路径,以及将所述最优识别路径对应的语音结果作为所述识别结果;以及输出模块,用于根据所述识别结果计算所述识别结果对应的置信度,并根据所述置信度获得唤醒结果并输出。本专利技术实施例的语音唤醒装置,通过唤醒词和符合预设条件的垃圾词构建识别网络,然后基于卷积神经网络声学模型对用户输入的语音信息的声学特征进行似然计算,获得识别结果,并计算出识别结果对应的置信度,最终根据置信度获得唤醒结果并输出,环境鲁棒性好,无需根据环境改变预设阈值,计算量小,功耗低,降低了语音唤醒的误报率,进而提升用户使用体验。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1为根据本专利技术一个实施例的语音唤醒方法的流程图。图2为根据本专利技术一个实施例的语音唤醒装置的结构示意图一。图3为根据本专利技术一个实施例的语音唤醒装置的结构示意图二。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述根据本专利技术实施例的语音唤醒方法和装置。图1为根据本专利技术一个实施例的语音唤醒方法的流程图。如图1所示,语音唤醒方法包括以下步骤:S1、获取唤醒词,并根据唤醒词生成符合预设条件的垃圾词,以及根据唤醒词和垃圾词构建识别网络。在本专利技术的实施例中,唤醒词可通过用户预先设置,例如“小度你好”。然后可根据唤醒词生成符合预设条件的垃圾词。具体地,可先获取唤醒词对应的第一状态序列,然后再从垃圾词典中获取与第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词。其中,第一编辑距离小于第二编辑距离。举例来说,假设唤醒词由W1、W2、W3三个汉字组成,W1具有两个音节P11和P12,W2具有两个音节P21和P22,W3具有三个音节P31、P32和P33。而每个音节均可对应三个状态,即P11对应的状态为S111、S112和S113,P12对应的状态为S121、S122和S123,P21对应的状态为S211、S212和S213,P22对应的状态为S221、S222和S223,P31对应的状态为S311、S312和S313,P32对应的状态为S321、S322和S323,P33对应的状态为S331、S332和S333。由此,可获取对应的第一状态序列SList1为S111、S112、S113、S121……S331,S332、S333。然后再获取编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列。其中,编辑距离又称Levenshtein距离,为第一个字符串转换为第二个字符串所需的最少编辑操作次数,用来表示两个字符串之间的距离,可用Levenshtein(SList1,SList2)表示。本实施例中,假设第一编辑距离为A,第二编辑距离为B,则A<Levenshtein(SList1,SList2)<B的第二状态序列,均可作为第二状态序列。其中,A和B为实验数值,如果编辑距离小于A,则两个字符串太过相似,如果编辑距离大于B,则两个字符串完全不相关。而与多个第二状态序列对应的字符串即为垃圾词。在生成垃圾词后,可从真实语音词典中获取通用垃圾词,然后将唤醒词的第一个字与通用垃圾词生成网络A,最后将生成的垃圾词、唤醒词、通用垃圾词以及网络A四者进行并联,最终生成识别网络。其中,通用垃圾词为针对所有语音聚类生成的垃圾词网络,均为真实用户的语音输入。S2、获取用户输入的语音信息,将语音信息切分为多个语音帧,并提取每个语音帧中的声学特征。在本专利技术的实施例中,可先获取用户输入的语音信息,再将语音信息切分为多个语音帧,例如10ms为一帧,然后提取每个语音帧中的声学特征。其中,声学特征可以是40维的FilterBank特征,也可以是13维的MFCC特征。S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算,以获得每个声学特征的声学特征得分。在本专利技术的实施例中,声学特征得分可通过以下公式计算,Sco本文档来自技高网...
语音唤醒方法和装置

【技术保护点】
一种语音唤醒方法,其特征在于,包括以下步骤:S1、获取唤醒词,并根据所述唤醒词生成符合预设条件的垃圾词,以及根据所述唤醒词和所述垃圾词构建识别网络;S2、获取用户输入的语音信息,将所述语音信息切分为多个语音帧,并提取所述每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算,以获得所述每个声学特征的声学特征得分;S4、根据所述声学特征得分从所述识别网络中选取最优识别路径,以及将所述最优识别路径对应的语音结果作为所述识别结果;以及S5、根据所述识别结果计算所述识别结果对应的置信度,并根据所述置信度获得唤醒结果并输出。

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括以下步骤:S1、获取唤醒词,并根据所述唤醒词生成符合预设条件的垃圾词,以及根据所述唤醒词和所述垃圾词构建识别网络;S2、获取用户输入的语音信息,将所述语音信息切分为多个语音帧,并提取所述每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算,以获得所述每个声学特征的声学特征得分;S4、根据所述声学特征得分从所述识别网络中选取最优识别路径,以及将所述最优识别路径对应的语音结果作为所述识别结果;以及S5、根据所述识别结果计算所述识别结果对应的置信度,并根据所述置信度获得唤醒结果并输出;在对所述声学特征进行似然计算之后,还包括:计算下一语音帧的裁剪门限;根据所述裁剪门限裁剪所述识别网络中与所述下一语音帧无关的节点,并对所述下一语音帧对应的声学特征进行似然计算。2.如权利要求1所述的方法,其特征在于,所述根据所述唤醒词生成符合预设条件的垃圾词,包括:获取所述唤醒词对应的第一状态序列;从垃圾词典中获取与所述第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词,其中,所述第一编辑距离小于所述第二编辑距离。3.如权利要求1所述的方法,其特征在于,所述根据所述唤醒词和所述垃圾词构建识别网络,包括:从真实语音词典中获取通用垃圾词;将所述唤醒词的第一个字与通用垃圾词串联生成网络A;以及将所述网络A、所述垃圾词、所述唤醒词和所述通用垃圾词进行并联,生成所述识别网络。4.如权利要求1所述的方法,其特征在于,所述计算下一语音帧的裁剪门限,包括:获取并计算所述识别网络中所有活动节点的声学特征得分的第一平均值;获取并计算所述识别网络中M个声学特征得分最大的节点的声学特征得分的第二平均值;以及根据所述第一平均值和所述第二平均值计算所述裁剪门限。5.如权利要求1所述的方法,其特征在于,所述步骤S5,包括:获取并计算所述识别网络中所有活动节点的声学特征得分的第一平均值;获取并计算所述识别网络中所述唤醒词对应的Y个节点的声学特征得分的第三平均值;以及根据所述第一平均值和所述第三平均值计算所述置信度。6.如权利要求1所述的方法,其特征在于,所述步骤S5,还包括:基于filler模型计算出所述置信度。7.一种语音唤醒装置...

【专利技术属性】
技术研发人员:唐立亮贾磊彭守业牛建伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1