语音识别方法和装置制造方法及图纸

技术编号:21895687 阅读:22 留言:0更新日期:2019-08-17 16:01
本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括:基于语音信号中的语音帧的声学得分,确定出语音信号中的非静音帧;基于语音帧的声学得分在相邻的非静音帧之间确定出缓冲帧,缓冲帧对应的建模单元表征语句的开头或结束;基于从语音信号中去除缓冲帧后的语音帧进行解码,得到语音识别结果。该实施方式能够有效减少需要解码的语音帧的数量,降低解码器的运算压力,提升解码速度,从而提升语音识别速度。

Speech Recognition Method and Device

【技术实现步骤摘要】
语音识别方法和装置
本申请实施例涉及计算机
,具体涉及语音识别方法和装置。
技术介绍
语音识别是指将人工智能技术的一个重要研究方向。语音识别算法的流程中,首先提取声学特征进行声学得分的计算,然后解码器根据声学得分在时间维度对每一个语音帧进行解码,根据解码路径加入相应的语言模型得分,完成最后一帧解码后选出最优的解码路径作为识别结果。解码器的解码速度对于语音识别系统的速度具有很大的影响。优化解码器的解码速度不仅可以改善用户体验,还可以降低系统的运算压力。
技术实现思路
本申请实施例提出了语音识别方法和装置。第一方面,本公开的实施例提供了一种语音识别方法,包括:基于语音信号中的语音帧的声学得分,确定出语音信号中的非静音帧;基于语音帧的声学得分在相邻的非静音帧之间确定出缓冲帧,缓冲帧对应的建模单元表征语句的开头或结束;基于从语音信号中去除缓冲帧后的语音帧进行解码,得到语音识别结果。在一些实施例中,上述声学得分包括第一声学得分和至少一个第二声学得分,第一声学得分表征语音帧与空白建模单元对应的概率,第二声学得分表征语音帧与预设的非空白建模单元对应的概率;上述基于语音信号中的语音帧的声学得分,确定出语音信号中的非静音帧,包括:基于语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出语音信号中的非静音帧。在一些实施例中,上述基于语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出语音信号中的非静音帧,包括:响应于确定语音帧的第一声学得分和各第二声学得分中的最大值之间的差值不大于第一预设阈值,确定语音帧为非静音帧。在一些实施例中,上述基于语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出语音信号中的非静音帧,包括:响应于确定语音帧的第一声学得分和各第二声学得分中的最大值之间的差值不小于第二预设阈值,将语音帧标记为静音帧;将语音信号中未被标记为静音帧的语音帧确定为非静音帧。在一些实施例中,上述方法还包括:基于语音信号中的语音帧的声学得分,确定出语音信号中的静音帧;以及上述基于从语音信号中去除缓冲帧后的语音帧进行解码,包括:基于从语音信号中去除缓冲帧和静音帧后的语音帧进行解码。第二方面,本公开的实施例提供了一种语音识别装置,包括:第一确定单元,被配置为基于语音信号中的语音帧的声学得分,确定出语音信号中的非静音帧;第二确定单元,被配置为基于语音帧的声学得分在相邻的非静音帧之间确定出缓冲帧,缓冲帧对应的建模单元表征语句的开头或结束;解码单元,被配置为基于从语音信号中去除缓冲帧后的语音帧进行解码,得到语音识别结果。在一些实施例中,上述声学得分包括第一声学得分和至少一个第二声学得分,第一声学得分表征语音帧与空白建模单元对应的概率,第二声学得分表征语音帧与预设的非空白建模单元对应的概率;上述第一确定单元进一步被配置为:基于语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出语音信号中的非静音帧。在一些实施例中,上述第一确定单元进一步被配置为按照如下方式确定出语音信号中的非静音帧:响应于确定语音帧的第一声学得分和各第二声学得分中的最大值之间的差值不大于第一预设阈值,确定语音帧为非静音帧。在一些实施例中,上述第一确定单元进一步被配置为按照如下方式确定出语音信号中的非静音帧:响应于确定语音帧的第一声学得分和各第二声学得分中的最大值之间的差值不小于第二预设阈值,将语音帧标记为静音帧;将语音信号中未被标记为静音帧的语音帧确定为非静音帧。在一些实施例中,上述装置还包括:第三确定单元,被配置为基于语音信号中的语音帧的声学得分,确定出语音信号中的静音帧;以及上述解码单元进一步被配置为:基于从语音信号中去除缓冲帧和静音帧后的语音帧进行解码。第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的语音识别方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的语音识别方法。本申请上述实施例的语音识别方法和装置,通过基于语音信号中的语音帧的声学得分,确定出语音信号中的非静音帧,基于语音帧的声学得分在相邻的非静音帧之间确定出缓冲帧,缓冲帧对应的建模单元表征语句的开头或结束,基于从语音信号中去除缓冲帧后的语音帧进行解码,得到语音识别结果,能够有效减少需要解码的语音帧的数量,降低解码器的运算压力,提升解码速度,从而提升语音识别速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本公开的实施例可以应用于其中的示例性系统架构图;图2是根据本公开的语音识别方法的一个实施例的流程图;图3是根据本公开的语音识别方法的另一个实施例的流程图;图4是根据本公开的语音识别装置的一个实施例的结构示意图;图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的语音识别方法或语音识别装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以通过网络104与服务器105交互,以接收或发送文字或音频消息等。终端设备101、102、103上可以安装有各种信息交互应用,例如语音助手应用、信息搜索应用、地图应用、社交平台应用、音视频播放应用等。终端设备101、102、103可以是具有音频信号采集功能的设备,可以是具有麦克风并支持互联网访问的各种电子设备,包括但不限于智能音箱、智能手机、平板电脑、智能手表、笔记本电脑、膝上便携型电脑、电子书阅读器等。服务器105可以是提供音频信号处理服务的服务器,例如语音识别服务器。服务器105可以对终端设备101、102、103发送的语音信号进行解析,通过语音识别算法将语音信号转换为对应的文本。服务器105可以将语音信号的识别结果通过网络104反馈给终端设备101、102、103。需要说明的是,本申请实施例所提供的语音识别方法可以由服务器105执行,相应地,语音识别装置可以设置于服务器105中。需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。当终端设备包含用于执行物理运算的部件(例如GPU等处理器)时,本申请实施本文档来自技高网...

【技术保护点】
1.一种语音识别方法,包括:基于语音信号中的语音帧的声学得分,确定出所述语音信号中的非静音帧;基于所述语音帧的声学得分在相邻的非静音帧之间确定出缓冲帧,所述缓冲帧对应的建模单元表征语句的开头或结束;基于从所述语音信号中去除所述缓冲帧后的语音帧进行解码,得到语音识别结果。

【技术特征摘要】
1.一种语音识别方法,包括:基于语音信号中的语音帧的声学得分,确定出所述语音信号中的非静音帧;基于所述语音帧的声学得分在相邻的非静音帧之间确定出缓冲帧,所述缓冲帧对应的建模单元表征语句的开头或结束;基于从所述语音信号中去除所述缓冲帧后的语音帧进行解码,得到语音识别结果。2.根据权利要求1所述的方法,其中,所述声学得分包括第一声学得分和至少一个第二声学得分,所述第一声学得分表征所述语音帧与空白建模单元对应的概率,所述第二声学得分表征所述语音帧与预设的非空白建模单元对应的概率;所述基于语音信号中的语音帧的声学得分,确定出所述语音信号中的非静音帧,包括:基于所述语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出所述语音信号中的非静音帧。3.根据权利要求2所述的方法,其中,所述基于所述语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出所述语音信号中的非静音帧,包括:响应于确定所述语音帧的第一声学得分和各第二声学得分中的最大值之间的差值不大于第一预设阈值,确定所述语音帧为非静音帧。4.根据权利要求2所述的方法,其中,所述基于所述语音信号中的语音帧的第一声学得分和第二声学得分之间的差异,确定出所述语音信号中的非静音帧,包括:响应于确定所述语音帧的第一声学得分和各第二声学得分中的最大值之间的差值不小于第二预设阈值,将所述语音帧标记为静音帧;将所述语音信号中未被标记为静音帧的语音帧确定为非静音帧。5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:基于语音信号中的语音帧的声学得分,确定出所述语音信号中的静音帧;以及所述基于从所述语音信号中去除所述缓冲帧后的语音帧进行解码,包括:基于从所述语音信号中去除所述缓冲帧和所述静音帧后的语音帧进行解码。6.一种语音识别装置,包括:第一确定单元,被配置为基于语音信号中的语音帧的声学得分,确定出所述语音信号中的非静音帧;第二...

【专利技术属性】
技术研发人员:邵俊尧钱胜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1