一种语音识别方法及系统技术方案

技术编号:9569705 阅读:96 留言:0更新日期:2014-01-16 03:02
本发明专利技术提供了一种语音识别的方法及系统,其中语音识别的方法包括:A.客户端模块将获取的用户语音指令发送至服务器模块;B.所述服务器模块利用指令模板集合及命名实体集合对所述语音指令进行初步识别,获得初步识别结果,并将所述初步识别结果发送至所述客户端模块,其中所述初步识别结果是含有未知变量信息的识别结果;C.所述客户端模块利用所述客户端存储的命名实体信息对所述未知变量进行识别,以得到所述语音指令的完整识别结果。通过上述方式,本发明专利技术能够充分利用服务器的计算资源,提高语音识别精度。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种语音识别的方法及系统,其中语音识别的方法包括:A.客户端模块将获取的用户语音指令发送至服务器模块;B.所述服务器模块利用指令模板集合及命名实体集合对所述语音指令进行初步识别,获得初步识别结果,并将所述初步识别结果发送至所述客户端模块,其中所述初步识别结果是含有未知变量信息的识别结果;C.所述客户端模块利用所述客户端存储的命名实体信息对所述未知变量进行识别,以得到所述语音指令的完整识别结果。通过上述方式,本专利技术能够充分利用服务器的计算资源,提高语音识别精度。【专利说明】一种语音识别方法及系统
】本专利技术涉及语音识别技术,特别涉及一种语音识别的方法及系统。【
技术介绍
】随着与移动终端相关的软硬件技术的发展,移动终端变得越来越智能。通过语音命令对移动终端进行操作,是移动终端技术发展的方向,而要实现语音命令对移动终端的控制,其核心是要对用户的语音命令进行正确识别,只有对用户的语音命令进行正确识别,才能触发移动终端执行相应的动作。现有技术中,移动终端的语音识别通常有两种方法:第一种方法,是在移动终端内置语音识别系统,当用户对移动终端发出语音指令时,利用该内置系统对语音指令进行识别。这种方法能够充分利用移动终端上保存的私人信息(例如通讯录)实现语音识别,在进行语音拨号之类的语音操作时比较有效。但这种方式存在一个问题,即移动终端的计算能力有限,内置的语音识别系统难以对复杂的语音命令进行识别。例如移动终端上的网页登录,地图操作,歌曲查询,或者是信息搜索等功能中涉及到的语音识别,内置的语音识别系统就难以完成,并且由于移动终端的计算能力有限,内置的语音识别系统难以应用复杂的语音识别算法,也导致了现有技术的这种方法即使应用在语音拨号中,也存在识别精度低的缺陷。第二种方法,是由移动终端获取用户的语音指令,然后将获取到的语音指令发送至服务器,利用服务器预先建立的语音识别系统对语音指令识别,最终将识别结果返回至移动终端。这种方式可以充分利用服务器强大的计算能力,从而实现对复杂的语音指令进行识别的功能,其缺点在于,这种方式无法充分利用移动终端上存储的私人信息,从而会影响到语音指令中与移动终端上存储的私人信息有关的语音片段的识别精度。【
技术实现思路
】本专利技术所要解决的技术问题是提供一种语音识别的方法及系统,以实现充分利用服务器的计算资源,提高识别精度的目的。本专利技术为解决技术问题而采用的技术方案是提供一种语音识别的系统,包括:客户端模块及服务器模块,其中,所述客户端模块包括:语音采集单元,用于获取用户的语音指令;客户端通讯单元,用于将所述语音指令发送至服务器模块;所述服务器模块包括:第一识别单元,用于利用指令模板集合及命名实体集合对所述语音指令进行初步识别,获得初步识别结果,其中所述初步识别结果是含有未知变量信息的识别结果,所述未知变量是所述语音指令中与所述客户端存储的命名实体信息相关的语音片段;服务器通讯单元,用于将所述初步识别结果发送至所述客户端模块;所述客户端模块还包括:第二识别单元,用于利用所述客户端存储的命名实体信息对所述未知变量进行识别,以得到所述语音指令的完整识别结果。根据本专利技术之一优选实施例,所述第一识别单元包括:第一解码空间生成单元,用于预先将指令模板集合及命名实体集合分别编译成两个独立的WFST网络,以构成第一解码空间;第一解码单元,用于在接收到所述语音指令时,利用所述第一解码空间对所述语音指令进行解码,以确定所述语音指令所属的指令模板,以及所述未知变量在所述语音指令中的起止时刻,并将所述语音指令所属的指令模板及所述未知变量在所述语音指令中的起止时刻作为所述初步识别结果。根据本专利技术之一优选实施例,所述第二识别单元包括:第二解码空间生成单元,用于预先将所述客户端存储的命名实体信息编译成WFST网络,以构成第二解码空间;第二解码单元,用于在接收到所述初步识别结果时,根据所述未知变量在所述语音指令中的起止时刻,从所述语音指令中确定待识别的语音片段,并利用所述第二解码空间对所述待识别的语音片段进行解码,得到所述未知变量的识别结果。根据本专利技术之一优选实施例,所述服务器模块进一步包括:特征提取单元,用于从所述语音指令中提取与说话人相关的声学特征;并且,所述服务器通讯单元进一步用于将所述与说话人相关的声学特征发送至所述客户端模块。根据本专利技术之一优选实施例,所述客户端模块进一步包括:声学模型训练单元,用于预先利用说话人语音样本训练与说话人相关的声学模型;并且,所述第二解码单元对所述待识别的语音片段进行解码时,利用所述与说话人相关的声学特征、所述第二解码空间和所述与说话人相关的声学模型对所述待识别的语音片段进行解码。本专利技术还提供了一种语音识别的方法,包括:A.客户端模块将获取的用户语音指令发送至服务器模块;B.所述服务器模块利用指令模板集合及命名实体集合对所述语音指令进行初步识别,获得初步识别结果,并将所述初步识别结果发送至所述客户端模块,其中所述初步识别结果是含有未知变量信息的识别结果,所述未知变量是所述语音指令中与所述客户端存储的命名实体信息相关的语音片段;C.所述客户端模块利用所述客户端存储的命名实体信息对所述未知变量进行识别,以得到所述语音指令的完整识别结果。根据本专利技术之一优选实施例,所述服务器模块利用指令模板集合及命名实体集合对所述语音指令进行初步识别的步骤包括:所述服务器模块在接收到所述语音指令时,利用第一解码空间对所述语音指令进行解码,以确定所述语音指令所属的指令模板,以及未知变量在所述语音指令中的起止时刻,并将所述语音指令所属的指令模板及所述未知变量在所述语音指令中的起止时刻作为所述初步识别结果,其中所述第一解码空间是预先将指令模板集合及命名实体集合分别编译成两个独立的WFST网络后形成的。根据本专利技术之一优选实施例,所述客户端模块利用所述客户端存储的命名实体信息对所述未知变量进行识别的步骤包括:所述客户端模块在接收到所述初步识别结果时,根据所述未知变量在所述语音指令中的起止时刻,从所述语音指令中确定待识别的语音片段,并利用第二解码空间对所述待识别的语音片段进行解码,得到所述未知变量的识别结果,其中所述第二解码空间是预先将所述客户端存储的命名实体信息编译成WFST网络后形成的。根据本专利技术之一优选实施例,所述步骤B进一步包括:服务器模块从所述语音指令中提取与说话人相关的声学特征,并将所述与说话人相关的声学特征发送至所述客户端模块。根据本专利技术之一优选实施例,所述客户端模块对所述待识别的语音片段进行解码时,利用所述与说话人相关的声学特征、所述第二解码空间和与说话人相关的声学模型对所述待识别的语音片段进行解码,其中与说话人相关的声学模型是预先利用说话人语音样本训练得到的。由以上技术方案可以看出,本专利技术通过将语音指令的识别分成两个阶段,在服务器识别阶段,得到包含未知变量信息的初步识别结果,在客户端识别阶段,对未知变量进行识别,从而得到语音指令的完整识别结果,可以充分利用服务器的计算资源,同时又可以充分利用存储在客户端的信息提高语音识别的精度。【【专利附图】【附图说明】】图1为本专利技术中语音识别系统的实施例的结构示意框图;图2为本专利技术中第一识别单元的实施例的结构示意框图;图3为本本文档来自技高网
...
一种语音识别方法及系统

【技术保护点】
一种语音识别的系统,包括:客户端模块及服务器模块,其中,所述客户端模块包括:语音采集单元,用于获取用户的语音指令;客户端通讯单元,用于将所述语音指令发送至服务器模块;所述服务器模块包括:第一识别单元,用于利用指令模板集合及命名实体集合对所述语音指令进行初步识别,获得初步识别结果,其中所述初步识别结果是含有未知变量信息的识别结果,所述未知变量是所述语音指令中与所述客户端存储的命名实体信息相关的语音片段;服务器通讯单元,用于将所述初步识别结果发送至所述客户端模块;所述客户端模块还包括:第二识别单元,用于利用所述客户端存储的命名实体信息对所述未知变量进行识别,以得到所述语音指令的完整识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1