声学模型训练方法和装置制造方法及图纸

技术编号:17251447 阅读:37 留言:0更新日期:2018-02-11 10:23
本申请公开了声学模型训练方法和装置。该方法的一具体实施方式包括:去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径,高延迟搜索路径为具有状态的输出的延迟大于延迟阈值的搜索路径;基于状态的输出的延迟小于延迟阈值的搜索路径,对声学模型进行训练。实现了在采用CTC准则对声学模型进行训练时,去除了所有搜索路径中的高延迟搜索路径,使得高延迟搜索路径不会参与到对声学模型进行训练的过程中,避免了采用CTC准则对声学模型的训练中由于大量的高延迟搜索路径参与训练容易导致训练后的声学模型输出的状态序列具有滞后性的问题,使得训练后的声学模型在预测语音状态时具有更低的时间延迟。

【技术实现步骤摘要】
声学模型训练方法和装置
本申请涉及计算机领域,具体涉及语音领域,尤其涉及声学模型训练方法和装置。
技术介绍
CTC(connectionisttemporalclassification,连接时序分类)准则被广泛应用于声学模型的训练和优化中。采用CTC准则对声学模型的训练中由于大量的高延迟搜索路径参与训练容易导致训练后的声学模型输出的状态序列具有滞后性。专利技术信息本申请提供了一种声学模型训练方法和装置,用于解决上述
技术介绍
部分存在的技术问题。第一方面,本申请提供了声学模型训练方法,该方法包括:去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径,所述高延迟搜索路径为具有状态的输出的延迟大于延迟阈值的搜索路径;基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对所述声学模型进行训练。第二方面,本申请提供了声学模型训练装置,该装置包括:搜索路径去除单元,配置用于去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径,高延迟搜索路径为具有状态的输出的延迟大于延迟阈值的搜索路径;声学模型训练单元,配置用于基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对声学模型进行训练。本申请提供的声学模型训练方法和装置,通过去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径,所述高延迟搜索路径为具有状态的输出的延迟大于延迟阈值的搜索路径;基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对声学模型进行训练。实现了在采用CTC准则对声学模型进行训练时,去除了所有搜索路径中的高延迟搜索路径,使得高延迟搜索路径不会参与到对声学模型进行训练的过程中,避免了采用CTC准则对声学模型的训练中由于大量的高延迟搜索路径参与训练容易导致训练后的声学模型输出的状态序列具有滞后性的问题,使得训练后的声学模型在预测语音状态时具有更低的时间延迟。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了根据本申请的声学模型训练方法的一个实施例的流程图;图2示出了根据本申请的声学模型训练装置的一个实施例的结构示意图;图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。请参考图1,其示出了根据本申请的声学模型训练方法的一个实施例的流程。该方法包括以下步骤:步骤101,去除采用CTC准则对声学模型进行训练时搜索出的所有搜索路径中的高延迟搜索路径。在采用CTC准则对声学模型进行训练时,会在时间轴上的有限状态空间遍历所有的搜索路径,所有搜索路径中包含一些高延迟搜索路径。例如,采用CTC准则对声学模型进行训练中的一段语音为念参考标注序列{北、京}的语音,该段语音中,念完“北”字之后,停顿了5秒,才念“京”字。在搜索出的所有搜索路径中,可能存在多条搜索路径对应的状态序列进行映射之后得到的预测标注序列与参考标注序列{北、京}相同。在对应的状态序列进行映射之后得到的预测标注序列与参考标注序列{北、京}相同的多条搜索路径中,存在高延迟搜索路径。例如,高延迟搜索路径中“北”字的输出时刻并不是在预测出的状态“北”的音频的结束时刻之后较短的一段时间内,而可能是在声学模型预测出状态“京”之后,在5秒之后的一个时刻才输出“北”。在采用CTC准则对声学模型的训练中大量的高延迟搜索路径时参与训练过程,进而会导致声学模型输出的状态序列具有滞后性的情况。例如,用户输入了一段念“百度大厦”的语音,在念完“厦”之后,如果一直按着语音输入的按钮,训练后的声学模型解码出的最优的搜索路径中只会输出“百”、“度”、“大”,“厦”的输出需要等待声学模型预测出“厦”的下一个状态,而不会输出“厦”,在用户松开语音输入的按钮之后,才会输出“厦”。在本实施例中,为了避免采用CTC准则对训练中大量的高延迟搜索路径参与训练而导致的训练后的声学模型输出的状态序列具有滞后性的情况,在采用CTC准则对声学模型进行训练时,可以去除所有搜索路径中的高延迟搜索路径。在本实施例的一些可选的实现方式中,可以通过在采用CTC准则对声学模型进行训练过程中加入强延迟控制约束条件的方式来去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径。强延迟控制约束条件用于保留所有搜索路径中的状态的输出的延迟小于延迟阈值的搜索路径。在本实施例的一些可选的实现方式中,在基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对声学模型进行训练时,可以采用CTC准则以最大化所有搜索路径中去除高延迟搜索路径后的状态的输出的延迟小于延迟阈值的搜索路径中的目标序列对应的搜索路径的概率和的方式优化声学模型,目标序列为与参考标注序列相同的预测标注序列。使得所有搜索路径中仅状态的输出的延迟小于延迟阈值的搜索路径中的目标序列对应的搜索路径参与到声学模型的优化中。步骤102,基于状态的输出的延迟小于延迟阈值的搜索路径,对声学模型进行训练。在本实施例中,在通过步骤101去除采用CTC准则对声学模型进行训练时搜索出的所有搜索路径中的高延迟搜索路径之后,可以基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对声学模型进行训练。由于在采用CTC准则对声学模型进行训练时,去除了所有搜索路径中的高延迟搜索路径,使得高延迟搜索路径不会参与到对声学模型进行训练的过程中,避免了采用CTC准则对声学模型的训练中由于大量的高延迟搜索路径参与训练容易导致训练后的声学模型输出的状态序列具有滞后性的问题,使得训练后的声学模型在预测语音状态时具有更低的时间延迟。在本实施例的一些可选的实现方式中,在采用CTC准则对声学模型进行训练,利用去除所有搜索路径中的高延迟搜索路径状态的输出的延迟小于延迟阈值的搜索路径对声学模型进行训练得到训练后的声学模型之后,可以利用训练后的声学模型对用户输入的语音进行识别。可以利用训练后的声学模型接收用户输入的语音,确定出最优搜索路径,最优搜索路径中的每一个状态的输出的延迟均小于延迟阈值。例如,用户输入了一段念“百度大厦”的语音,在念完最后一个字“厦”之后,在一直按着语音输入的按钮的情况下,训练后的声学模型确定出的最优的搜索路径中,“百度大厦”中的“百”、“度”、“大”、“厦”的输出的延迟均在延迟阈值内。请参考图2,作为对上述各图所示方法的实现,本申请提供了一种声学模型训练装置的一个实施例,该装置实施例与图1所示的方法实施例相对应。如图2所示,声学模型训练装置包括:搜索路径去除单元201,声学模型训练单元202。其中,搜索路径去除单元201配置用于去除在采用连接时序分类准则对声学模型进行训练时所有本文档来自技高网...
声学模型训练方法和装置

【技术保护点】
一种声学模型训练方法,其特征在于,所述方法包括:去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径,所述高延迟搜索路径为具有状态的输出的延迟大于延迟阈值的搜索路径;基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对所述声学模型进行训练。

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,所述方法包括:去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径,所述高延迟搜索路径为具有状态的输出的延迟大于延迟阈值的搜索路径;基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对所述声学模型进行训练。2.根据权利要求1所述的方法,其特征在于,去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延迟搜索路径包括:在采用连接时序分类准则对声学模型进行训练时加入强延迟控制约束条件,所述强延迟控制约束条件用于保留所有搜索路径中的状态的输出的延迟小于延迟阈值的搜索路径。3.根据权利要求2所述的方法,其特征在于,基于除了所有搜索路径中的高延迟搜索路径之外的状态的输出的延迟小于延迟阈值的搜索路径,对所述声学模型进行训练包括:采用连接时序分类准则以最大化状态的输出的延迟小于延迟阈值的搜索路径中的目标序列对应的搜索路径的概率和的方式优化声学模型,所述目标序列为与参考标注序列相同的预测标注序列。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:利用训练后的声学模型接收用户输入的语音,确定出最优搜索路径,所述最优搜索路径中的每一个状态的输出的延迟均小于延迟阈值。5.一种声学模型训练装置,其特征在于,所述装置包括:搜索路径去除单元,配置用于去除在采用连接时序分类准则对声学模型进行训练时所有搜索路径中的高延...

【专利技术属性】
技术研发人员:黄斌李先刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1