端到端语音识别方法、装置及电子设备制造方法及图纸

技术编号:33475696 阅读:66 留言:0更新日期:2022-05-19 00:51
本发明专利技术提供一种端到端语音识别方法、装置及电子设备,所述方法包括:获取待识别的语音音频数据;基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据,获取语音识别结果;其中,所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型,所述关键稀疏词为存在替换错误的稀疏词,本方法通过设计激励参数,将所设计的激励参数结合稀疏词数据样本训练出识别精准的稀疏词语音识别模型,以将所述模型应用于语音识别的过程中,从而可以在保证日常用语识别效果的基础上提升对包含稀疏词的专业词汇用语的识别准确率。率。率。

【技术实现步骤摘要】
端到端语音识别方法、装置及电子设备


[0001]本专利技术涉及语音识别
,尤其涉及一种端到端语音识别方法、装置及电子设备。

技术介绍

[0002]随着科技发展,人工智能产品在生活中的渗透率越来越高,语音识别作为人机交互的基本技术,其在智能家居、智能汽车、智能客服等场景下均有着广阔的应用。语音识别和人工智能相结合技术的发展呈迅猛趋势,为了人机交互更自然顺畅,其对于语音识别的准确率要求也越来越高。
[0003]得益于人工智能与机器学习的技术突破、算法和软硬件能力的进步,还有着数据量大且多样化的语音语料数据库,均可用于训练多参数的、大规模的语音识别与合成模型,使得语音处理技术获得飞跃性进步。并且,随着端到端神经网络在机器翻译、语音生成等方面的逐步应用,现有端到端语音识别方法也逐渐达到与传统语音识别方法相持平的技术高度。传统语音识别方法是将语音识别任务划分为诸如词汇模型、声学模型和语言模型等多个子任务,不同于传统语音识别方法,现有端到端语音识别方法是以梅尔语谱形式在输入端输入原始数据,能够直接产生并输出对应的自然语言文本,此法极大地简化了模型的训练过程,从而也越来越受到学术界和产业界的广泛关注。
[0004]虽然现有端到端语音识别方法的语音识别效果良好,但是由于其输出是基于文本中“字”的模型,所收集到的训练数据不可能覆盖现存所有的行业类别涉及的所有字,并且,训练数据的语料中常用字和生僻字出现的频度有所不同,从而导致现有端到端语音识别方法对于日常用语的识别效果很好,而对于一些包含稀疏词的专业词汇的识别效果很差。
[0005]现有技术还通过端到端语音识别方法加稀疏词的方法来进行处理,需要预先通过人工整理稀疏词,再基于稀疏词进行识别,其能在一定程度上提升稀疏词的识别准确率,但是,该方法费事费力,并且由于专业词汇中存在同音字的情况较多,以及声学模型对于稀疏词的建模精度通常较差,会导致稀疏词的声学模型得分较低,从而,即使利用端到端语音识别方法加稀疏词的方式也无法精准地找回稀疏词,比如,语音“西格列汀”有可能被错误地识别为“西格列听”,语音“默沙东”有可能被错误地识别为“莫沙东”或“默沙冬”,虽然接近准确结果,但仍不够精准。而如果将稀疏词的声学模型得分直接调高,则会影响该方法对于日常用语的识别效果。

技术实现思路

[0006]本专利技术提供一种端到端语音识别方法、装置及电子设备,用以解决现有技术中语音识别过程中稀疏词等专业词汇识别效果差的缺陷,从而提升语音识别的准确率。
[0007]本专利技术提供一种端到端语音识别方法,包括:获取待识别的语音音频数据;基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据,获取语音识
别结果;其中,所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型,所述关键稀疏词为存在替换错误的稀疏词。
[0008]根据本专利技术提供的一种端到端语音识别方法,所述稀疏词语音识别模型的训练过程包括:获取若干个稀疏词数据样本,并记录所述稀疏词数据样本的总数量,所述稀疏词数据样本包括关键稀疏词和所述关键稀疏词在目标区域内的上下文内容;基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容,以及所述激励参数,逐个地对所述稀疏词数据样本进行分数调整,获得若干个分数合格样本,以使得所述分数合格样本的数量满足预设比例条件;基于所述激励参数,获得所述稀疏词语音识别模型;其中,所述预设比例条件为,所述合格样本的数量占所述稀疏词数据样本的总数量的比例大于等于预设比例。
[0009]根据本专利技术提供的一种端到端语音识别方法,所述基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容,以及所述激励参数,逐个地对所述稀疏词数据样本进行分数调整,获得若干个分数合格样本,以使得所述分数合格样本的数量满足预设比例条件,包括:获取所述稀疏词数据样本中的关键稀疏词;基于所述关键稀疏词的上下文内容,使所述关键稀疏词和上下文相邻字形成关键稀疏词组合,所述关键稀疏词组合的识别结果包括正确组合搭配以及至少一种错误组合搭配;分别获取所述正确组合搭配的搭配得分,以及至少一种所述错误组合搭配的搭配得分;基于激励参数对所述正确组合搭配的搭配得分进行分数调整,以使得调整后的正确组合搭配的搭配得分满足预设合格条件;其中,所述预设合格条件为调整后的正确组合搭配的搭配得分大于任意一种错误组合搭配的搭配得分。
[0010]根据本专利技术提供的一种端到端语音识别方法,所述稀疏词数据样本的获取步骤,具体包括:获取语音音频数据集,所述语音音频数据集包括若干个语音音频数据样本;分别计算各个所述语音音频数据样本的语音识别先验概率;基于各所述语音识别先验概率,从所述语音音频数据集中选取语音识别先验概率较低的预设比例的语音音频数据样本,以作为所述稀疏词数据样本。
[0011]根据本专利技术提供的一种端到端语音识别方法,所述稀疏词数据样本中的所述关键稀疏词的获取步骤,具体包括:基于通用语音识别模型和若干个所述稀疏词数据样本,分别获得对应的若干个预识别结果;将所述预识别结果和所述稀疏词数据样本的实际文本进行比较,获得比较结果;基于所述比较结果,找出所述稀疏词数据样本中存在替换错误的稀疏词,以作为
所述关键稀疏词。
[0012]根据本专利技术提供的一种端到端语音识别方法,在所述稀疏词语音识别模型训练完成后,还包括以下测试步骤:获取测试音频数据集;基于所述测试音频数据集对所述稀疏词语音识别模型进行测试,获得测试结果;基于所述测试结果更新所述稀疏词语音识别模型。
[0013]根据本专利技术提供的一种端到端语音识别方法,所述上下文相邻字,包括上文相邻字或下文相邻字;相应的,所述关键稀疏词和上文相邻字形成的关键稀疏词组合的搭配得分等于所述关键稀疏词的搭配得分;或,所述关键稀疏词和下文相邻字形成的关键稀疏词组合的搭配得分等于所述关键稀疏词的搭配得分与逆序文本分数因子整合计算的搭配得分。
[0014]本专利技术还提供一种端到端语音识别装置,包括:获取模块,用于获取待识别的语音音频数据;识别模块,用于基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据,获取语音识别结果;其中,所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型,所述关键稀疏词为存在替换错误的稀疏词。
[0015]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任一项所述端到端语音识别方法的全部或部分步骤。
[0016]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述端到端语音识别方法的全部或部分步骤。
[0017]本专利技术提供一种端到端语音识别方法、装置及电子设备,所述方法在获取待识别的语音音频数据后,基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据,获取语音识别结果,其中,所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型,所述关键稀疏词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端语音识别方法,其特征在于,包括:获取待识别的语音音频数据;基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据,获取语音识别结果;其中,所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型,所述关键稀疏词为存在替换错误的稀疏词。2.根据权利要求1所述的端到端语音识别方法,其特征在于,所述稀疏词语音识别模型的训练过程包括:获取若干个稀疏词数据样本,并记录所述稀疏词数据样本的总数量,所述稀疏词数据样本包括关键稀疏词和所述关键稀疏词在目标区域内的上下文内容;基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容,以及所述激励参数,逐个地对所述稀疏词数据样本进行分数调整,获得若干个分数合格样本,以使得所述分数合格样本的数量满足预设比例条件;基于所述激励参数,获得所述稀疏词语音识别模型;其中,所述预设比例条件为,所述合格样本的数量占所述稀疏词数据样本的总数量的比例大于等于预设比例。3.根据权利要求2所述的端到端语音识别方法,其特征在于,所述基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容,以及所述激励参数,逐个地对所述稀疏词数据样本进行分数调整,获得若干个分数合格样本,以使得所述分数合格样本的数量满足预设比例条件,包括:获取所述稀疏词数据样本中的关键稀疏词;基于所述关键稀疏词的上下文内容,使所述关键稀疏词和上下文相邻字形成关键稀疏词组合,所述关键稀疏词组合的识别结果包括正确组合搭配以及至少一种错误组合搭配;分别获取所述正确组合搭配的搭配得分,以及至少一种所述错误组合搭配的搭配得分;基于激励参数对所述正确组合搭配的搭配得分进行分数调整,以使得调整后的正确组合搭配的搭配得分满足预设合格条件;其中,所述预设合格条件为调整后的正确组合搭配的搭配得分大于任意一种错误组合搭配的搭配得分。4.根据权利要求2所述的端到端语音识别方法,其特征在于,所述稀疏词数据样本的获取步骤,具体包括:获取语音音频数据集,所述语音音频数据集包括若干个语音音频数据样本;分别计算各个所述语音音频数据样本的语音...

【专利技术属性】
技术研发人员:赵超
申请(专利权)人:北京沃丰时代数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1