一种语音识别模板训练方法、语音识别方法及装置制造方法及图纸

技术编号：21202593 阅读：19 留言：0更新日期：2019-05-25 02:01

本发明专利技术提供了一种语音识别模板训练方法、语音识别方法及装置，训练方法包括：采集语音样本；对语音样本进行聚类训练，以得到至少一个子模板；从至少一个子模板中选取第一子模板作为初始的中间模板；根据动态时间规整算法与至少一个子模板，对中间模板进行至少一次迭代更新；将经过至少一次迭代更新之后的中间模板输出为语音识别模板。利用上述方法，能对不同人发出的同一个命令都能识别，解决了现有技术中只对于特定人的识别率比较好的技术问题。

A Speech Recognition Template Training Method, Speech Recognition Method and Device

The invention provides a speech recognition template training method, a speech recognition method and a device. The training method includes: collecting speech samples; clustering training speech samples to obtain at least one sub-template; selecting the first sub-template from at least one sub-template as the initial intermediate template; and matching the intermediate template with at least one sub-template according to the dynamic time warping algorithm. Make at least one iteration update; output the intermediate template after at least one iteration update to the speech recognition template. By using the above method, the same command issued by different people can be recognized, and the technical problem that the recognition rate of existing technology is only good for a specific person can be solved.

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别模板训练方法、语音识别方法及装置
本专利技术属于语音识别领域，具体涉及一种语音识别模板训练方法、语音识别方法及装置。
技术介绍
传统的基于动态时间规整(DynamicTimeWarping，简称DTW)算法的语音识别只对于特定人的识别率比较好，也即只对录入语音模板的人的识别率高，然而，在一些应用场景下，识别设备需要对不同人发出的命令都能实现识别。现有技术中，通常采用增加模板数量的方案以解决上述问题，也就是说，针对同一个词汇，录制不同人的语音样本并训练获得多个模板参与到后续的识别中。然而，上述解决方案一方面会增加内存开销，另一方面会延长语音识别的时间，进而造成了用户使用体验的下降。
技术实现思路
针对上述现有技术中语音识别模板只对于特定人的识别率比较好这一问题，提出了一种语音识别模板训练方法、语音识别方法及装置，利用这种方法和装置，能够解决上述问题。本专利技术提供了以下方案。根据本专利技术实施例的一个方面，提供一种语音识别模板训练方法，其特征在于，包括：采集至少一个语音样本，形成语音样本集；对至少一个语音样本进行聚类训练，以得到至少一个子模板；从至少一个子模板中选取第一子模板作为初始的中间模板；根据动态时间规整算法与至少一个子模板，对中间模板进行至少一次迭代更新；将经过至少一次迭代更新之后的中间模板输出为语音识别模板。可选地，其中，采集至少一个语音样本至少包括：响应于多种预设触发指令中的第一指令，录入至少一个语音样本中的第一样本，并将对应于第一指令的第一标签添加给第一样本；以及响应于多种预设触发指令中的第二指令，录入至少一个语音样本中的第二样本，并将...

【技术保护点】
1.一种语音识别模板训练方法，其特征在于，包括：采集至少一个语音样本；对所述至少一个语音样本进行聚类训练，以得到至少一个子模板；从所述至少一个子模板中选取第一子模板作为初始的中间模板；根据动态时间规整算法与所述至少一个子模板，对所述中间模板进行至少一次迭代更新；将经过所述至少一次迭代更新之后的所述中间模板输出为语音识别模板。

【技术特征摘要】
1.一种语音识别模板训练方法，其特征在于，包括：采集至少一个语音样本；对所述至少一个语音样本进行聚类训练，以得到至少一个子模板；从所述至少一个子模板中选取第一子模板作为初始的中间模板；根据动态时间规整算法与所述至少一个子模板，对所述中间模板进行至少一次迭代更新；将经过所述至少一次迭代更新之后的所述中间模板输出为语音识别模板。2.如权利要求1所述的训练方法，其特征在于，采集至少一个语音样本至少包括：响应于多种预设触发指令中的第一指令，录入所述至少一个语音样本中的第一样本，并将对应于所述第一指令的第一标签添加给所述第一样本；以及响应于所述多种预设触发指令中的第二指令，录入所述至少一个语音样本中的第二样本，并将对应于所述第二指令的第二标签添加给所述第二样本。3.如权利要求1或2所述的训练方法，其特征在于，对所述至少一个语音样本进行聚类训练，以得到至少一个子模板进一步包括：根据预设分类规则对所述至少一个语音样本进行分类，以获得至少一类语音样本；对所述至少一类语音样本执行特征提取，并通过对所述提取的特征进行训练以得到至少一个子模板，其中所述至少一个子模板与所述至少一类语音样本一一对应。4.如权利要求1所述的训练方法，其特征在于，所述方法还包括：根据时间长度选取所述第一子模板，其中，所述第一子模板的时间长度为所述至少一个子模板的至少一个时间长度中的中位值和/或次中位值。5.如权利要求1所述的训练方法，其特征在于，对所述中间模板进行至少一次迭代更新中的任意一次迭代更新进一步包括：从所述至少一个子模板中选取第二子模板；根据动态时间规整算法获得所述中间模板与所述第二子模板的最优匹配路径；根据所述最优匹配路径，对所述第二子模板进行拉伸和/或压缩处理，以得到第三子模板，所述第三子模板具有与所述中间模板相同的时间长度；对所述第三子模板与所述中间模板进行多维的矢量求均值运算，从而得到第四子模板；根据所述第四子模板对所述中间模板进行更新，从而执行完毕一次所述迭代更新。6.如权利要求5所述的训练方法，其特征在于，所述方法还包括：通过在所述任意一次迭代更新的过程中，根据动态时间规整算法计算所述中间模板与所述第二子模板的最小累积距离，从而在所述至少一次迭代更新中获取至少一个最小累计距离；根据所述至少一个最小累计距离，获取与所述语音识别模板相对应的阈值。7.一种语音识别方法，其特征在于，包括：获取待测语音；根据动态时间规整算法，计算所述待测语音与至少一个语音模板之间的至少一个最小累计距离；根据所述至少一个最小累计距离，从所述至少一个语音模板中选取目标语音模板，并根据所述目标语音模板输出识别结果；其中，所述至少一个语音模板中的每一个语音模板预先采用如权利要求1～6中任一项所述的方法进行训练。8.一种语音识别模板训练装置，其特征在于，包括：采集模块，用于采集至少一个语音样本；聚类模板，用于对所述至少一个语音样本进行聚类训练，以得到至少一个子模板；选取模块，用于从所述至少一个子模板中选取第一子模板作为初始的中间模板；更新模块，用于根据动态时间规整算法与所述至少一个子模板，对所述中间模板进行至少一次迭代更新；输出模块，用于将经过所述至少一次...

【专利技术属性】
技术研发人员：吴威，张楠赓，
申请(专利权)人：杭州嘉楠耘智信息科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人