声学模型训练的加速方法和装置制造方法及图纸

技术编号:20747951 阅读:26 留言:0更新日期:2019-04-03 10:51
本发明专利技术实施例提出一种声学模型训练的加速方法和装置。该方法包括:将声学模型训练过程按照步骤划分为多个任务;获取计算节点集群中各节点的资源占用情况;根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。本发明专利技术实施例可以利用分布在多个节点的计算资源对声学模型训练任务进行分布式并行计算,提高训练效率,适用于大规模声学模型训练的复杂情况。

【技术实现步骤摘要】
声学模型训练的加速方法和装置
本专利技术涉及计算机
,尤其涉及一种分布式声学模型训练方法和装置。
技术介绍
随着信息时代各项技术的发展,语音合成也逐渐进入大数据时代,语音数据的获取变得越来越容易。与小语料库相比,大语料库可给语音合成带来更多的好处:能够实现更全的模型上下文覆盖,能够提供更加丰富的训练样本,能够提供更加丰富的韵律现象。目前大语料库的声学模型训练,采用单机部分任务多进程方式训练。由于大语料库的HMM模型(HiddenMarkovModel隐式马尔可夫模型)数目急剧增加导致内存占有量过大,单机部分任务都只能开启少量进程并行或者单进程运行,训练时间很长,不能满足快速模型训练的需求。因此,需要一种声学训练模型的加速方法和装置。
技术实现思路
本专利技术实施例提供一种声学模型训练的加速方法和装置,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种声学模型训练的加速方法,包括:将声学模型训练过程按照步骤划分为多个任务;获取计算节点集群中各节点的资源占用情况;根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。在一种实施方式中,所述声学模型训练过程包括语音参数提取部分,将声学模型训练过程按照步骤划分为多个任务,包括:根据训练模型的任务复杂度和计算节点规模,将所述语音参数提取部分的每个步骤划分为至少一个任务。在一种实施方式中,所述声学模型训练过程包括HTS训练部分,将声学模型训练过程按照步骤划分为多个任务,包括:根据训练模型的任务复杂度和计算节点规模,将HTS训练部分的每个步骤划分为至少一个任务。在一种实施方式中,将HTS训练部分的每个步骤划分为至少一个任务,包括:将HTS训练部分中的决策树聚类步骤按特征和状态进行分解,得到多个任务。在一种实施方式中,根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务,包括:根据各节点的资源占用情况,确定参与声学模型训练过程的每个任务的节点;将声学模型训练过程的每个任务分发给对应的节点执行。第二方面,本专利技术实施例提供了一种声学模型训练的加速装置,包括:划分模块,用于将声学模型训练过程按照步骤划分为多个任务;获取模块,用于获取计算节点集群中各节点的资源占用情况;分发模块,用于根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。在一种实施方式中,所述声学模型训练过程包括语音参数提取部分,所述划分模块还用于根据训练模型的任务复杂度和计算节点规模,将所述语音参数提取部分的每个步骤划分为至少一个任务。在一种实施方式中,所述声学模型训练过程包括HTS训练部分,所述划分模块还用于根据训练模型的任务复杂度和计算节点规模,将HTS训练部分的每个步骤划分为至少一个任务。在一种实施方式中,所述划分模块还用于将HTS训练部分中的决策树聚类步骤按特征和状态进行分解,得到多个任务。在一种实施方式中,所述分发模块还用于根据声学模型训练中每个步骤的任务复杂度及各节点的资源占用情况,确定参与每个步骤的节点;将声学模型训练任务的每个任务分发给对应的节点执行。第三方面,本专利技术实施例提供了一种声学模型训练的加速装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述装置的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述声学模型训练加速方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储分布式训练装置所用的计算机软件指令,其包括用于执行上述声学模型训练加速方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:可以利用分布在多个设备上的节点对声学模型的训练任务进行批量测试,提高训练效率,适用于语料库的声学模型训练。上述技术方案中的另一个技术方案具有如下优点或有益效果:能够对各节点所在的设备进行统一控制,进行任务调度、可靠性监测和负载均衡等处理,合理地控制训练过程。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示出根据本专利技术实施例的声学模型训练加速方法的流程图。图2示出根据本专利技术实施例的声学模型训练加速方法的流程图。图3示出根据本专利技术实施例的声学模型训练加速方法的流程图。图4示出根据本专利技术实施例的决策树聚类步骤流程图。图5示出根据本专利技术实施例的声学模型训练加速装置的结构框图。图6示出根据本专利技术实施例的声学模型训练加速装置的结构框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。图1示出根据本专利技术实施例的声学模型训练加速方法的流程图。如图1所示,该声学模型训练加速方法包括:步骤S11、将声学模型训练过程按照步骤划分为多个任务;步骤S12、获取计算节点集群中各节点的资源占用情况;步骤S13、根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。在基于大语料库进行声学模型训练的过程中,可以将训练过程划分多个步骤,每个步骤又可分解为多个任务,在多个节点上可以并行地执行多个任务。在一种实施方式中,步骤S11包括:获取不同的声学模型训练步骤对应的训练任务复杂度,每个步骤对应一个或多个任务,所述任务复杂度包括任务的数量、任务的上下文相关信息中的至少一项。任务复杂度可以包括任务的数量、上下文相关信息等各种影响执行效率的因素。其中,上下文相关信息可以包括训练语音的音速、音调、节奏、韵律等语音信息。在同一训练方法中,训练语料音速、音调、节奏、韵律等的不同,可以得到不同的训练任务。本专利技术实施例可以利用分布在多个设备上的多个节点对声学模型的训练任务进行批量处理,提高训练效率,适用于语料资源较多的大语料库的声学模型训练。在一种实施方式中,步骤S12包括:获取计算节点集群中各节点的CPU(CentralProcessingUnit,中央处理器)使用情况、内存使用情况中的至少一项。在一种实施方式中,可以配置节点的数量、节点之间的连接关系等,组成不同的分布式训练网络。利用不同的节点的空闲资源,执行不同的训练步骤的任务。例如,对根据训练任务的不同,增加或者减少参与计算的节点数量,从而充分利用各节点的利用效率。再如,对节点之间的连接关系进行调整,可以形成不同拓扑结构的分布式网络,如星型、总线型等,从而提高指令及数据交互效率,增加并行化水平。在确定训练步骤的数量后,可以根据每个训练步骤分解出的任务数量确定训练节点的数量。例如,可以为每个训练任务分配一个对应的节点。如果需要批量执行100个训练任务,则需要100个节点。再如,本文档来自技高网...

【技术保护点】
1.一种声学模型训练的加速方法,其特征在于,包括:将声学模型训练过程按照步骤划分为多个任务;获取计算节点集群中各节点的资源占用情况;根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。

【技术特征摘要】
1.一种声学模型训练的加速方法,其特征在于,包括:将声学模型训练过程按照步骤划分为多个任务;获取计算节点集群中各节点的资源占用情况;根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。2.根据权利要求1所述的方法,其特征在于,所述声学模型训练过程包括语音参数提取部分,将声学模型训练过程按照步骤划分为多个任务,包括:根据训练模型的任务复杂度和计算节点规模,将所述语音参数提取部分的每个步骤划分为至少一个任务。3.根据权利要求1所述的方法,其特征在于,所述声学模型训练过程包括HTS训练部分,将声学模型训练过程按照步骤划分为多个任务,包括:根据训练模型的任务复杂度和计算节点规模,将HTS训练部分的每个步骤划分为至少一个任务。4.根据权利要求3所述的方法,其特征在于,将HTS训练部分的每个步骤划分为至少一个任务,包括:将HTS训练部分中的决策树聚类步骤按特征和状态进行分解,得到多个任务。5.根据权利要求1所述的方法,其特征在于,根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务,包括:根据各节点的资源占用情况,确定参与声学模型训练过程的每个任务的节点;将声学模型训练过程的每个任务分发给对应的节点执行。6.一种声学模型训练的加速装置,其特征在于,包括:划分模块,用于将声学模型训练过程按照步骤划分为多个任务;获取模块,用于获取计算...

【专利技术属性】
技术研发人员:李云峰郝庆畅盖于涛孙晨曦周志平
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1