一种优化语音识别声学模型的方法及系统技术方案

技术编号:8834984 阅读:178 留言:0更新日期:2013-06-22 20:56
本发明专利技术提供了一种优化语音识别声学模型的方法及系统,涉及计算机技术领域,用以解决现有的优化语音识别声学模型的效率低下问题。方法包括:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。系统包括:获取单元、对比单元、更新单元和训练单元。本发明专利技术优化了语音识别声学模型的训练数据,提高了训练数据的质量,从而提高了对语音识别声学模型的优化效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种优化语音识别声学模型的方法及相应的系统。
技术介绍
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。目前语音识别的几种基本方法包括:基于声道声学和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。在语音搜索或语音输入系统中,用户不断输入语音数据,语音识别得出的识别结果有时会有所偏差,甚至无法正常识别、阅读或理解,因此需要不断对语音识别声学模型进行优化,通常采用的方式是对语音识别声学模型进行重训练。现有技术中采用的优化语音识别声学模型的方式为:对训练数据中的所有语音数据进行人工标注,采用人工标注的结果重训练语音识别声学模型。然而,由于训练数据的更新规模通常非常庞大,如果都采用人工标注的形式显然效率十分低下。
技术实现思路
本专利技术提供了一种优化语音识别声学模型的方法及系统,用以解决现有的优化语音识别声学模型的效率低下问题。具体技术方案如下:—种优化语音识别声学模型的方法,包括下列步骤:Al、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。根据本专利技术一优选实施例,步骤A3中包括:以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。或者,对所述被识别错误的语音段进行过滤,以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据,过滤过程具体包括:A31、以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;A32、如果获取的所述静音数据时长大于预设的阈值,则过滤上述语音段。根据本专利技术一优选实施例,步骤A31之前,还包括:A30、检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。根据本专利技术一优选实施例,步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。根据本专利技术一优选实施例,在步骤A2中确定被识别错误的语音段的权重;以及在步骤A4中根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。一种优化语音识别声学模型的系统,包括:获取单元,用于采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;对比单元,用于将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;更新单元,用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;训练单元,用于以更新后的训练数据对所述语音识别声学模型进行重训练。根据本专利技术一优选实施例,更新单元中包括:强制对齐子单元,用于以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;过滤子单元,用于在判定强制对齐子单元获取的静音数据时长大于预设的阈值时,过滤上述语音段。还包括:端点检测子单元,用于在强制对齐子单元完成强制对齐操作之前,检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。过滤子单元所依据的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。根据本专利技术一优选实施例,对比单元还确定被识别错误的语音段的权重;以及训练单元根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。由以上技术方案可以看出,本专利技术通过获取语音识别结果和其标注脚本,将二者进行对比,并以被识别错误的语音段更新语音识别声学模型的训练数据,从而优化了语音识别声学模型的训练数据,提高了训练数据的质量。之后,再以更新后的训练数据对语音识别声学模型进行重训练,从而提高了对语音识别声学模型的优化效率。附图说明图1为本专利技术实施例一的方法流程图;图2为本专利技术实施例二的方法流程图;图3为本专利技术实施例的强制对齐的示意图;图4为本专利技术实施例三的系统结构图;图5为本专利技术实施例四的系统结构图。具体实施例方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。实施例一、本实施例提供了一种优化语音识别声学模型的方法,应用于但不限于语音搜索或语音输入系统,参见图1所示,包括下列步骤:S11、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本。本实施例中,用户不断输入语音进行语音搜索操作,其中包括若干语音段,每一语音段中又包含了代表语音分量的语音数据和代表噪音(静音)分量的静音数据。本实施例中,以一个语音段的处理过程为例,其它语音段执行相同处理即可,不再赘述,例如:用户语音输入一个查询语句“如何更改微信界面”,服务器接收和存储该语音段后,进行自动语音识别,识别结果为“如何更改回信见面”。该段语音的标注脚本为“如何更改微信界面”。S12、将识别结果和标注脚本进行比对,获取被识别错误的语音段。继续上述实例,将“如何更改微信界面”与“如何更改微信界面”进行对比,判断该段语音是否识别错误,本例中得出的对比结果为识别错误。由此可见语音识别声学模型对该语音段的识别能力较差,需要利用该语音段以及该语音段的正确结果(即标注脚本)对语音识别声学模型进行调整。根据对比结果,获取应识别为“如何更改微信界面”而被识别为“如何更改回信见面”的语音段。S13、以被识别错误的语音段更新语音识别声学模型的训练数据。本实施例中,可以以全部被识别错误的语音段以及各语音段对应的标注脚本更新语音识别声学模型的训练数据。S14、以更新后的训练数据对语音识别声学模型进行重训练。具体的,可将被识别错误的语音段及其标注脚本加入训练数据集合,利用该语音段及其标注脚本与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。可见,本实施例中通过获取语音识别结果和其标注脚本,将二者进行对比,并以被识别错误的语音段更新语音识别声学模型的训练数据,从而优化了语音识别声学模型的训练数据,提高了训练数据的质量。之后,再以更新后的训练数据对语音识别声学模型进行重训练,从而提高了对语音识别声学模型的优化效率。在具体实现中,将一段语音的识别结果与该段语音的标注脚本对比可使数据规模减小约I倍。实施例二、本实施例提供了一种优化语音识别声学模型的方法,应用于但不限于语音搜索或语音输入系统,参见图2所示,包括下列步骤:S21、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本。具体描述与Sll —致,不再赘述。S22、将识别结果和标注脚本进行比对,获取被识别错误的语音段。具体描述与S12 —致,不再赘述。S23、以被识别错误的语音段更新语音识别声学模型的训练数据。本实施例中,对步骤S22获取的语音本文档来自技高网...

【技术保护点】
一种优化语音识别声学模型的方法,其特征在于,包括下列步骤:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。

【技术特征摘要】
1.一种优化语音识别声学模型的方法,其特征在于,包括下列步骤: Al、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本; A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段; A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据; A4、以更新后的训练数据对所述语音识别声学模型进行重训练。2.根据权利要求1所述的方法,其特征在于,所述步骤A3中包括: 以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;或者,对所述被识别错误的语音段进行过滤,以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据,过滤过程具体包括: A31、以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长; A32、如果获取的所述静音数据时长大于预设的阈值,则过滤上述语音段。3.根据权利要求2所述的方法,其特征在于,所述步骤A31之前,还包括: A30、检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。4.根据权利要求2所述的方法,其特征在于,步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。5.根据权利要求1所述的方法,其特征在于,在步骤A2中确定被识别错误的语音段的权重;以及在步骤A4中根据所述权重和更新...

【专利技术属性】
技术研发人员:苏丹
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1