一种语音识别模板训练方法、语音识别方法及装置制造方法及图纸

技术编号:21202593 阅读:19 留言:0更新日期:2019-05-25 02:01
本发明专利技术提供了一种语音识别模板训练方法、语音识别方法及装置,训练方法包括:采集语音样本;对语音样本进行聚类训练,以得到至少一个子模板;从至少一个子模板中选取第一子模板作为初始的中间模板;根据动态时间规整算法与至少一个子模板,对中间模板进行至少一次迭代更新;将经过至少一次迭代更新之后的中间模板输出为语音识别模板。利用上述方法,能对不同人发出的同一个命令都能识别,解决了现有技术中只对于特定人的识别率比较好的技术问题。

A Speech Recognition Template Training Method, Speech Recognition Method and Device

The invention provides a speech recognition template training method, a speech recognition method and a device. The training method includes: collecting speech samples; clustering training speech samples to obtain at least one sub-template; selecting the first sub-template from at least one sub-template as the initial intermediate template; and matching the intermediate template with at least one sub-template according to the dynamic time warping algorithm. Make at least one iteration update; output the intermediate template after at least one iteration update to the speech recognition template. By using the above method, the same command issued by different people can be recognized, and the technical problem that the recognition rate of existing technology is only good for a specific person can be solved.

【技术实现步骤摘要】
一种语音识别模板训练方法、语音识别方法及装置
本专利技术属于语音识别领域,具体涉及一种语音识别模板训练方法、语音识别方法及装置。
技术介绍
传统的基于动态时间规整(DynamicTimeWarping,简称DTW)算法的语音识别只对于特定人的识别率比较好,也即只对录入语音模板的人的识别率高,然而,在一些应用场景下,识别设备需要对不同人发出的命令都能实现识别。现有技术中,通常采用增加模板数量的方案以解决上述问题,也就是说,针对同一个词汇,录制不同人的语音样本并训练获得多个模板参与到后续的识别中。然而,上述解决方案一方面会增加内存开销,另一方面会延长语音识别的时间,进而造成了用户使用体验的下降。
技术实现思路
针对上述现有技术中语音识别模板只对于特定人的识别率比较好这一问题,提出了一种语音识别模板训练方法、语音识别方法及装置,利用这种方法和装置,能够解决上述问题。本专利技术提供了以下方案。根据本专利技术实施例的一个方面,提供一种语音识别模板训练方法,其特征在于,包括:采集至少一个语音样本,形成语音样本集;对至少一个语音样本进行聚类训练,以得到至少一个子模板;从至少一个子模板中选取第一子模板作为初始的中间模板;根据动态时间规整算法与至少一个子模板,对中间模板进行至少一次迭代更新;将经过至少一次迭代更新之后的中间模板输出为语音识别模板。可选地,其中,采集至少一个语音样本至少包括:响应于多种预设触发指令中的第一指令,录入至少一个语音样本中的第一样本,并将对应于第一指令的第一标签添加给第一样本;以及响应于多种预设触发指令中的第二指令,录入至少一个语音样本中的第二样本,并将对应于第二指令的第二标签添加给第二样本。可选地,其中,对至少一个语音样本进行聚类训练,以得到至少一个子模板进一步包括:根据预设分类规则对至少一个语音样本进行分类,以获得至少一类语音样本;对至少一类语音样本执行特征提取,并通过对提取的特征进行训练以得到至少一个子模板,其中至少一个子模板与至少一类语音样本一一对应。可选地,其中,方法还包括:根据时间长度选取第一子模板,其中,第一子模板的时间长度为至少一个子模板的至少一个时间长度中的中位值和/或次中位值。可选地,其中,对中间模板进行至少一次迭代更新中的任意一次迭代更新进一步包括:从至少一个子模板中选取第二子模板;根据动态时间规整算法获得中间模板与第二子模板的最优匹配路径;根据最优匹配路径,对第二子模板进行拉伸和/或压缩处理,以得到第三子模板,第三子模板具有与中间模板相同的时间长度;对第三子模板与中间模板进行多维的矢量求均值运算,从而得到第四子模板;根据第四子模板对中间模板进行更新,从而执行完毕一次迭代更新。可选地,其中,方法还包括:通过在任意一次迭代更新的过程中,根据动态时间规整算法计算中间模板与第二子模板的最小累积距离,从而在至少一次迭代更新中获取至少一个最小累计距离;根据至少一个最小累计距离,获取与语音识别模板相对应的阈值。根据本专利技术实施例的另一个方面,提供一种语音识别方法,其特征在于,包括:获取待测语音;根据动态时间规整算法,计算待测语音与至少一个语音模板之间的至少一个最小累计距离;根据至少一个最小累计距离,从至少一个语音模板中选取目标语音模板,并根据目标语音模板对待测语音进行识别;其中,所述至少一个语音模板中的每一个语音模板预先采用如上所述的方法进行训练。根据本专利技术实施例的另一个方面,提供一种语音识别模板训练装置,其特征在于,包括:采集模块,用于采集至少一个语音样本,形成语音样本集;聚类模板,用于对至少一个语音样本进行聚类训练,以得到至少一个子模板;选取模块,用于从至少一个子模板中选取第一子模板作为初始的中间模板;更新模块,用于根据动态时间规整算法与至少一个子模板,对中间模板进行至少一次迭代更新;输出模块,用于将经过至少一次迭代更新之后的中间模板输出为语音识别模板。可选地,其中,采集模块进一步用于:响应于多种预设触发指令中的第一指令,录入至少一个语音样本中的第一样本,并将对应于第一指令的第一标签添加给第一样本;以及响应于多种预设触发指令中的第二指令,录入至少一个语音样本中的第二样本,并将对应于第二指令的第二标签添加给第二样本。可选地,其中,聚类模块进一步用于:根据预设分类规则对至少一个语音样本进行分类,以获得至少一类语音样本;对至少一类语音样本执行特征提取,并通过对提取的特征进行训练以得到至少一个子模板,其中至少一个子模板与至少一类语音样本一一对应。可选地,其中,选取模块进一步用于:根据时间长度选取第一子模板,其中,第一子模板的时间长度为至少一个子模板的至少一个时间长度中的中位值和/或次中位值。可选地,其中,更新模块进一步用于:从至少一个子模板中选取第二子模板;根据动态时间规整算法获得中间模板与第二子模板的最优匹配路径;根据最优匹配路径,对第二子模板进行拉伸和/或压缩处理,以得到第三子模板,第三子模板具有与中间模板相同的时间长度;对第三子模板与中间模板进行多维的矢量求均值运算,从而得到第四子模板;根据第四子模板对中间模板进行更新,从而执行完毕一次迭代更新。可选地,其中,更新模块进一步用于:通过在任意一次迭代更新的过程中,根据动态时间规整算法计算中间模板与第二子模板的最小累积距离,从而在至少一次迭代更新中获取至少一个最小累计距离;根据至少一个最小累计距离,获取与语音识别模板相对应的阈值。根据本专利技术实施例的另一个方面,提供一种语音识别装置,其特征在于,包括:获取模块,用于获取待测语音;运算模块,用于根据动态时间规整算法,计算待测语音与至少一个语音模板之间的至少一个最小累计距离;识别模块,用于根据至少一个最小累计距离,从至少一个语音模板中选取目标语音模板,并根据目标语音模板对待测语音进行识别;其中,所述至少一个语音模板中的每一个语音模板预先采用如上所述的方法进行训练。根据本专利技术实施例的另一个方面,提供一种语音识别模板训练装置,其特征在于,包括:一个或者多个多核处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或者多个多核处理器执行时,使得一个或多个多核处理器实现:采集至少一个语音样本,形成语音样本集;对至少一个语音样本进行聚类训练,以得到至少一个子模板;从至少一个子模板中选取第一子模板作为初始的中间模板;根据动态时间规整算法与至少一个子模板,对中间模板进行至少一次迭代更新;将经过至少一次迭代更新之后的中间模板输出为语音识别模板。根据本专利技术实施例的另一个方面,提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行如上的方法。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:在本实施例利用上述技术方案,通过对语音样本集进行聚类训练后再基于DTW算法进行整合的方法,能对不同人发出的同一个命令都能识别,解决了传统的基于DTW算法的语音识别模板只对于特定人的识别率比较好的技术问题,相比传统改善做法,节省内存开销,减少匹配计算时间。应当理解,上述说明仅是本专利技术技术方案的概述,以便能够更清楚地了解本专利技术的技术手段,从而可依照说明书的内容予以实施。为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举说明本专利技术的具体实施方式。附图说明通过阅本文档来自技高网...

【技术保护点】
1.一种语音识别模板训练方法,其特征在于,包括:采集至少一个语音样本;对所述至少一个语音样本进行聚类训练,以得到至少一个子模板;从所述至少一个子模板中选取第一子模板作为初始的中间模板;根据动态时间规整算法与所述至少一个子模板,对所述中间模板进行至少一次迭代更新;将经过所述至少一次迭代更新之后的所述中间模板输出为语音识别模板。

【技术特征摘要】
1.一种语音识别模板训练方法,其特征在于,包括:采集至少一个语音样本;对所述至少一个语音样本进行聚类训练,以得到至少一个子模板;从所述至少一个子模板中选取第一子模板作为初始的中间模板;根据动态时间规整算法与所述至少一个子模板,对所述中间模板进行至少一次迭代更新;将经过所述至少一次迭代更新之后的所述中间模板输出为语音识别模板。2.如权利要求1所述的训练方法,其特征在于,采集至少一个语音样本至少包括:响应于多种预设触发指令中的第一指令,录入所述至少一个语音样本中的第一样本,并将对应于所述第一指令的第一标签添加给所述第一样本;以及响应于所述多种预设触发指令中的第二指令,录入所述至少一个语音样本中的第二样本,并将对应于所述第二指令的第二标签添加给所述第二样本。3.如权利要求1或2所述的训练方法,其特征在于,对所述至少一个语音样本进行聚类训练,以得到至少一个子模板进一步包括:根据预设分类规则对所述至少一个语音样本进行分类,以获得至少一类语音样本;对所述至少一类语音样本执行特征提取,并通过对所述提取的特征进行训练以得到至少一个子模板,其中所述至少一个子模板与所述至少一类语音样本一一对应。4.如权利要求1所述的训练方法,其特征在于,所述方法还包括:根据时间长度选取所述第一子模板,其中,所述第一子模板的时间长度为所述至少一个子模板的至少一个时间长度中的中位值和/或次中位值。5.如权利要求1所述的训练方法,其特征在于,对所述中间模板进行至少一次迭代更新中的任意一次迭代更新进一步包括:从所述至少一个子模板中选取第二子模板;根据动态时间规整算法获得所述中间模板与所述第二子模板的最优匹配路径;根据所述最优匹配路径,对所述第二子模板进行拉伸和/或压缩处理,以得到第三子模板,所述第三子模板具有与所述中间模板相同的时间长度;对所述第三子模板与所述中间模板进行多维的矢量求均值运算,从而得到第四子模板;根据所述第四子模板对所述中间模板进行更新,从而执行完毕一次所述迭代更新。6.如权利要求5所述的训练方法,其特征在于,所述方法还包括:通过在所述任意一次迭代更新的过程中,根据动态时间规整算法计算所述中间模板与所述第二子模板的最小累积距离,从而在所述至少一次迭代更新中获取至少一个最小累计距离;根据所述至少一个最小累计距离,获取与所述语音识别模板相对应的阈值。7.一种语音识别方法,其特征在于,包括:获取待测语音;根据动态时间规整算法,计算所述待测语音与至少一个语音模板之间的至少一个最小累计距离;根据所述至少一个最小累计距离,从所述至少一个语音模板中选取目标语音模板,并根据所述目标语音模板输出识别结果;其中,所述至少一个语音模板中的每一个语音模板预先采用如权利要求1~6中任一项所述的方法进行训练。8.一种语音识别模板训练装置,其特征在于,包括:采集模块,用于采集至少一个语音样本;聚类模板,用于对所述至少一个语音样本进行聚类训练,以得到至少一个子模板;选取模块,用于从所述至少一个子模板中选取第一子模板作为初始的中间模板;更新模块,用于根据动态时间规整算法与所述至少一个子模板,对所述中间模板进行至少一次迭代更新;输出模块,用于将经过所述至少一次...

【专利技术属性】
技术研发人员:吴威张楠赓
申请(专利权)人:杭州嘉楠耘智信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1