基于解码网络的语音唤醒方法和装置制造方法及图纸

技术编号:23559952 阅读:16 留言:0更新日期:2020-03-25 05:06
本发明专利技术公开基于解码网络的语音唤醒方法和装置,其中,一种基于解码网络的语音唤醒方法,包括:获取构建的解码网络中的多条解码路径,其中,所述解码路径中包含至少一个建模单元;基于各解码路径获取各解码路径中的各建模单元的边界;获取并计算待检测语音的每一时间帧语音的声学后验概率,将声学后验概率作为解码网络的输入;利用各建模单元的边界对每一时间帧语音的声学后验概率进行平滑处理;获取经过平滑处理后解码网络输出的解码结果。本申请的方法和装置提供的方案可以利用解码路径得到各建模单元的边界,根据建模单元边界对后验进行平滑,计算出的更加精确的置信度,从而提升唤醒精度。

Speech wake-up method and device based on decoding network

【技术实现步骤摘要】
基于解码网络的语音唤醒方法和装置
本专利技术属于语音唤醒
,尤其涉及基于解码网络的语音唤醒方法和装置。
技术介绍
目前市面上的大部分产品用的语音唤醒都是基于Kws(KeywordSearch,关键字检测)唤醒,很少有基于解码的方式。当前解决唤醒率的方式,还是主要基于提升声学模型的鲁棒性上。Kws唤醒是基于深度模型计算出的声学后验,对唤醒词中的各个字按照固定时长进行加窗平滑后计算整个词的confidence(置信度),当confidence超过一定阈值时,执行唤醒。专利技术人在实现本申请的过程中发现,上述方案至少存在以下缺陷:基于固定时长的平滑窗,导致语速会对confidence造成很大影响。比如在快语速时,窗长范围内包含了一个以上的拼音,这样平滑出来的拼音后验在计算confidence时会产生很大误差,从而形成误判。
技术实现思路
本专利技术实施例提供一种基于解码网络的语音唤醒方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种基于解码网络的语音唤醒方法,包括:获取构建的解码网络中的多条解码路径,其中,所述解码路径中包含至少一个建模单元;基于各解码路径获取各解码路径中的各建模单元的边界;获取并计算待检测语音的每一时间帧语音的声学后验概率,将所述声学后验概率作为所述解码网络的输入;利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理;以及获取经过平滑处理后所述解码网络输出的解码结果。第二方面,本专利技术实施例提供一种基于解码网络的语音唤醒装置,用于用户终端,包括:解码路径获取模块,配置为获取构建的解码网络中的多条解码路径,其中,所述解码路径中包含至少一个建模单元;建模单元边界获取模块,配置为基于各解码路径获取各解码路径中的各建模单元的边界;声学后验计算模块,配置为获取并计算待检测语音的每一时间帧语音的声学后验概率,将所述声学后验概率作为所述解码网络的输入;平滑处理模块,配置为利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理;以及解码结果输出模块,配置为获取经过平滑处理后所述解码网络输出的解码结果。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的基于解码网络的语音唤醒方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的基于解码网络的语音唤醒方法的步骤。本申请的方法和装置提供的方案通过构建解码网络,使用声学后验作为解码网络的输入,利用解码路径得到各建模单元的边界,根据建模单元边界对后验进行平滑,之后可以计算出的更加精确的confidence,从而可以提升唤醒精度。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种基于解码网络的语音唤醒方法的流程图;图2为本专利技术一实施例提供的另一种基于解码网络的语音唤醒方法的流程图;图3为本专利技术一实施例提供的又一种基于解码网络的语音唤醒方法的流程图;图4为本专利技术一实施例提供的再一种基于解码网络的语音唤醒方法的流程图;图5为本专利技术一实施例提供的一种基于解码网络的语音唤醒方法的一个具体示例的流程图;图6为本专利技术一实施例提供的一种基于解码网络的语音唤醒方法的一个构建的解码网络的示例图;图7为本专利技术一实施例提供的一种基于解码网络的语音唤醒装置的框图;图8是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的基于解码网络的语音唤醒方法一实施例的流程图,本实施例的基于解码网络的语音唤醒方法可以适用于具备语音唤醒能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音唤醒能力的智能终端等。如图1所示,在步骤101中,响应于唤醒词构建的解码网络,获取所述解码网络中的多条解码路径;在步骤102中,基于各解码路径获取各解码路径中的各建模单元的边界;在步骤103中,获取并计算待检测语音的每一时间帧语音的声学后验概率,将声学后验概率作为解码网络的输入;在步骤104中,利用各建模单元的边界对每一时间帧语音的声学后验概率进行平滑处理;在步骤105中,获取经过平滑处理后解码网络输出的解码结果。在本实施例中,对于步骤101,基于解码网络的语音唤醒装置唤醒词构建的解码网络,获取解码网络中的多条解码路径,其中,解码路径中包含至少一个建模单元。例如,对于空调的一些唤醒操作,也可以构建一个解码网络,该解码网络中例如包括以下多条解码路径,“da,kai,kong,tiao”、“da,kai,sheng,yin”、“da,kai,shang,wu,feng,gan”等。以上构建解码网络的方式比较现有,在此不再赘述。本申请的方案主要是将构建好的解码网络输入至本申请的基于解码网络的语音唤醒装置中,再获取该解码网络中的多条解码路径,以进行后续处理。在一些可选的实施例中,解码网络例如是wfst(weightedfinaite-statetransducer,加权有限状态转换器)解码网络。之后,对于步骤102,基于解码网络的语音唤醒装置基于各解码路径获取各解码路径中的各建模单元的边界。其中,建模单元可以指音素、音节或者汉字之类的东西。例如,在“da,kai,kong,tiao”中,“da”可以是一个建模单元,“kai”可以是一个建模单元,以此类推,在此不再赘述。或者,在另一种实现中,在“da”中,“d”可以是一个建模单元,“a”也可以是一个建模单元,以此类推,在此不再赘述。然后,对于步骤103,基于解码网络的语音唤醒装置获取并计算待检测语音的每一时间帧语音的声学后验概率,将声学后验概率作为解码网络的输入。接收到用户的待检测语音之后,会计算该待检测语音的每一时间帧语音的声学后验概率,然后将该声学后验概率作为解码网络的输入。其中每一时间帧可以是开发者定义的一个时间单元,并不一定与用户说一个汉字或一个音节的时间对应,所以可能会存在多个时间帧在同一个汉字或者音节上自本文档来自技高网...

【技术保护点】
1.一种基于解码网络的语音唤醒方法,包括:/n获取构建的解码网络中的多条解码路径,其中,所述解码路径中包含至少一个建模单元;/n基于各解码路径获取各解码路径中的各建模单元的边界;/n获取并计算待检测语音的每一时间帧语音的声学后验概率,将所述声学后验概率作为所述解码网络的输入;/n利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理;/n获取经过平滑处理后所述解码网络输出的解码结果。/n

【技术特征摘要】
1.一种基于解码网络的语音唤醒方法,包括:
获取构建的解码网络中的多条解码路径,其中,所述解码路径中包含至少一个建模单元;
基于各解码路径获取各解码路径中的各建模单元的边界;
获取并计算待检测语音的每一时间帧语音的声学后验概率,将所述声学后验概率作为所述解码网络的输入;
利用各建模单元的边界对所述每一时间帧语音的声学后验概率进行平滑处理;
获取经过平滑处理后所述解码网络输出的解码结果。


2.根据权利要求1所述的方法,其中,所述解码网络基于唤醒词构建,在所述获取经过平滑处理后所述解码网络输出的解码结果之后,所述方法还包括:
取所述解码结果中的nbest结果;
判断nbest结果是否为空;
若nbest结果不为空,分别基于所述nbest结果的顺序判断某一nbest结果是否包含所述唤醒词,并分别计算所述某一nbest结果的置信度;
当且仅当所述某一nbest结果中包含所述唤醒词以及所述某一nbest结果的置信度大于预设唤醒阈值时,执行唤醒操作。


3.根据权利要求2所述的方法,其中,在判断nbest结果是否为空之后,所述方法还包括:
若所述nbest结果为空,不执行唤醒操作。


4.根据权利要求2所述的方法,其中,所述方法还包括:
若所述某一nbest结果不包含所述唤醒词和/或所述某一nbest结果的置信度小于等于所述预设唤醒阈值时,不执行唤醒操作。


5.根据权利要求2-4中任一项所述的方法,其中,构建的解码网络包括采用以下方式构建:
使用唤醒词和filler构建wfst解码网络,其中所述wfst解码网络中包括对应存储有多个状态的数据信息的建模单元,各建模单元之间通过边连接,所述边上存储有所述解码网络的输入。


6.根据权利要求5所述的方法,其中,所述利用各建模单元...

【专利技术属性】
技术研发人员:陈福松
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1