端到端语音识别方法、装置及电子设备制造方法及图纸

技术编号：33475696 阅读：66 留言：0更新日期：2022-05-19 00:51

本发明专利技术提供一种端到端语音识别方法、装置及电子设备，所述方法包括：获取待识别的语音音频数据；基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词，本方法通过设计激励参数，将所设计的激励参数结合稀疏词数据样本训练出识别精准的稀疏词语音识别模型，以将所述模型应用于语音识别的过程中，从而可以在保证日常用语识别效果的基础上提升对包含稀疏词的专业词汇用语的识别准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
端到端语音识别方法、装置及电子设备

[0001]本专利技术涉及语音识别
，尤其涉及一种端到端语音识别方法、装置及电子设备。

技术介绍

[0002]随着科技发展，人工智能产品在生活中的渗透率越来越高，语音识别作为人机交互的基本技术，其在智能家居、智能汽车、智能客服等场景下均有着广阔的应用。语音识别和人工智能相结合技术的发展呈迅猛趋势，为了人机交互更自然顺畅，其对于语音识别的准确率要求也越来越高。
[0003]得益于人工智能与机器学习的技术突破、算法和软硬件能力的进步，还有着数据量大且多样化的语音语料数据库，均可用于训练多参数的、大规模的语音识别与合成模型，使得语音处理技术获得飞跃性进步。并且，随着端到端神经网络在机器翻译、语音生成等方面的逐步应用，现有端到端语音识别方法也逐渐达到与传统语音识别方法相持平的技术高度。传统语音识别方法是将语音识别任务划分为诸如词汇模型、声学模型和语言模型等多个子任务，不同于传统语音识别方法，现有端到端语音识别方法是以梅尔语谱形式在输入端输入原始数据，能够直接产生并输出对应的自然语言文本，此法极大地简化了模型的训练过程，从而也越来越受到学术界和产业界的广泛关注。
[0004]虽然现有端到端语音识别方法的语音识别效果良好，但是由于其输出是基于文本中“字”的模型，所收集到的训练数据不可能覆盖现存所有的行业类别涉及的所有字，并且，训练数据的语料中常用字和生僻字出现的频度有所不同，从而导致现有端到端语音识别方法对于日常用语的识别效果很好，而对于一些包含稀疏词的专业词汇的识别效果...

【技术保护点】

【技术特征摘要】
1.一种端到端语音识别方法，其特征在于，包括：获取待识别的语音音频数据；基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。2.根据权利要求1所述的端到端语音识别方法，其特征在于，所述稀疏词语音识别模型的训练过程包括：获取若干个稀疏词数据样本，并记录所述稀疏词数据样本的总数量，所述稀疏词数据样本包括关键稀疏词和所述关键稀疏词在目标区域内的上下文内容；基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，以及所述激励参数，逐个地对所述稀疏词数据样本进行分数调整，获得若干个分数合格样本，以使得所述分数合格样本的数量满足预设比例条件；基于所述激励参数，获得所述稀疏词语音识别模型；其中，所述预设比例条件为，所述合格样本的数量占所述稀疏词数据样本的总数量的比例大于等于预设比例。3.根据权利要求2所述的端到端语音识别方法，其特征在于，所述基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，以及所述激励参数，逐个地对所述稀疏词数据样本进行分数调整，获得若干个分数合格样本，以使得所述分数合格样本的数量满足预设比例条件，包括：获取所述稀疏词数据样本中的关键稀疏词；基于所述关键稀疏词的上下文内容，使所述关键稀疏词和上下文相邻字形成关键稀疏词组合，所述关键稀疏词组合的识别结果包括正确组合搭配以及至少一种错误组合搭配；分别获取所述正确组合搭配的搭配得分，以及至少一种所述错误组合搭配的搭配得分；基于激励参数对所述正确组合搭配的搭配得分进行分数调整，以使得调整后的正确组合搭配的搭配得分满足预设合格条件；其中，所述预设合格条件为调整后的正确组合搭配的搭配得分大于任意一种错误组合搭配的搭配得分。4.根据权利要求2所述的端到端语音识别方法，其特征在于，所述稀疏词数据样本的获取步骤，具体包括：获取语音音频数据集，所述语音音频数据集包括若干个语音音频数据样本；分别计算各个所述语音音频数据样本的语音...

【专利技术属性】
技术研发人员：赵超，
申请(专利权)人：北京沃丰时代数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人