语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:31021920 阅读:12 留言:0更新日期:2021-11-30 03:12
本申请公开了一种语音识别方法、装置、设备及存储介质,本申请对待识别语音数据进行语音识别所使用的语音识别模型包含有语言模型,语言模型是基于第一子词发音词典及第一分词结果所训练得到,该第一分词结果包括了利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别,并对识别错误的稀疏词进行重新分词所得的分词结果,该第一子词发音词典包括识别错误的稀疏词重新分词后的分词结果与对应的音素序列。本申请基于第一子词发音词典及第一分词结果所训练的语言模型相比于初始语言模型能够对稀疏词进行正确分词及发音预测,利用包含该语言模型的语音识别模型,能够对待识别语音数据进行正确的语音识别,提升稀疏词的语音识别准确率。疏词的语音识别准确率。疏词的语音识别准确率。

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别
,更具体的说,是涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]近年来,随着人工智能技术的飞速发展,越来越多的人工智能设备参与到普通大众的生活、工作中。而语音交互作为无接触、最自然的一种人机交互方式,广泛应用于各种人工智能设备中,搭建起人类与机器交流的桥梁。
[0003]目前,深度学习的语音识别技术已经日趋成熟,语音识别技术在很多场景下的识别率已经达到令人满意的效果,但是对于一些特定垂类下的语音识别,相较于通用的语音识别,通常会存在海量的稀疏实体词(简称稀疏词,又称专有名词),这些稀疏词在通用语音识别模型的训练过程中可能从未出现过,基于此模型无法识别这部分词汇,导致对于稀疏词的语音识别准确率很低。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种语音识别方法、装置、设备及存储介质,以实现提升对稀疏词的语音识别准确率。具体方案如下:
[0005]在本申请的第一方面,提供了一种语音识别方法,包括:
[0006]获取待识别语音数据;
[0007]利用预训练的语音识别模型对所述待识别语音数据进行语音识别,得到识别结果;
[0008]其中,所述语音识别模型包括基于第一子词发音词典及第一分词结果训练的语言模型,所述第一分词结果包括:利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别,并对识别错误的稀疏词进行重新分词所得的分词结果,所述第一子词发音词典包括:识别错误的稀疏词重新分词后的分词结果与对应的音素序列。
[0009]其中可选的,基于第一子词发音词典及第一分词结果训练语言模型的过程,包括:
[0010]利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别;
[0011]对识别错误的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列;
[0012]利用重新分词后的分词结果及对应的音素序列,更新第一子词发音词典;
[0013]基于更新后的第一子词发音词典及对识别错误的稀疏词重新分词后的分词结果,对所述初始语言模型进行二次训练,得到训练后的语言模型。
[0014]其中可选的,所述对识别错误的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列,包括:
[0015]对识别错误的稀疏词,按照错误类型进行分类;
[0016]针对每一错误类型下的稀疏词,按照错误类型对应的分词方式进行重新分词,得
到重新分词后的分词结果及对应的音素序列。
[0017]其中可选的,所述错误类型包括替换错误;
[0018]针对替换错误类型下的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列的过程,包括:
[0019]计算稀疏词中发生替换错误的子词,与对应识别后子词的发音相似度;
[0020]若所述发音相似度超过设定相似度阈值,则将稀疏词中发生替换错误的子词与相邻子词进行合并,并将发生替换错误的子词与相邻子词的音素序列合并,得到稀疏词的重新分词结果及对应的音素序列。
[0021]其中可选的,若确定所述发音相似度不超过设定相似度阈值,该方法还包括:
[0022]将稀疏词作为重新分词后的一个整词,并将稀疏词的语音识别结果对应的发音音素序列作为整词的音素序列。
[0023]其中可选的,所述错误类型还包括删除错误和插入错误;
[0024]针对删除错误和插入错误类型下的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列的过程,包括:
[0025]判断稀疏词中发生删除错误或插入错误的子词,是否可以通过与相邻子词进行合并的方式,转换为替换错误类型;
[0026]若可以,则按照替换错误类型下稀疏词重新分词的处理方式进行处理;
[0027]若不可以,则将稀疏词作为重新分词后的一个整词,并将稀疏词的语音识别结果对应的发音音素序列作为整词的音素序列。
[0028]其中可选的,所述初始语言模型基于第二子词发音词典及第二分词结果训练得到,所述第二分词结果包括:基于所述第二子词发音词典包含的子词对稀疏词集中各稀疏词进行分词后的分词结果,所述第二子词发音词典包括多个子词及每一子词对应的音素序列,所述第二子词发音词典满足,在被用于对通用词进行分词时,分词后的各子词的音素序列能够组合恢复出通用词的音素序列的条件。
[0029]其中可选的,所述第二子词发音词典的确定过程,包括:
[0030]基于通用词的发音词典,获取通用词的音素序列;
[0031]迭代更新子词发音词典,直至基于更新后的子词发音词典对所述通用词进行切分后所得到的各子词的音素序列能够组合恢复出所述通用词的音素序列为止,由所述更新后的子词发音词典作为第二子词发音词典。
[0032]其中可选的,迭代更新子词发音词典得到第二子词发音词典的过程,包括:
[0033]初始化子词发音词典;
[0034]基于所述子词发音词典,对通用词集中的通用词进行切分,得到每一通用词切分后的各子词,及各子词分别对应的音素序列;
[0035]针对每一通用词,判断切分后的各子词分别对应的音素序列中,是否存在一种子词的音素序列的组合能够恢复出所述通用词的音素序列;
[0036]若不存在,则确认当前通用词的切分失败,统计所述通用词集中切分失败的通用词占所有通用词的比值;
[0037]若所述比值超过设定阈值,则更新所述子词发音词典,并基于更新后的子词发音词典,返回执行所述对通用词集中的通用词进行切分的过程,直至通用词集中切分失败的
通用词占所有通用词的比值不超过所述设定阈值为止,由最新一次更新后的子词发音词典作为第二子词发音词典。
[0038]其中可选的,在判断所述比值超过设定阈值时,更新所述子词发音词典的过程,包括:
[0039]对于切分失败的通用词,判断其切分后的各子词中是否存在不发音的子词;
[0040]若是,则将不发音的子词合并到相邻的子词上,并记录合并后子词与其音素序列的对应关系;
[0041]若否,在记录的对应关系中筛选出现频率达到设定频率条件的目标对应关系,并将所述目标对应关系添加到子词发音词典中。
[0042]其中可选的,所述记录合并后子词与其音素序列的对应关系,包括:
[0043]将合并后子词中除不发音的子词之外的其它子词的音素序列,作为所述合并后子词的音素序列,并记录合并后子词与音素序列的对应关系。
[0044]其中可选的,在判断通用词集中切分失败的通用词占所有通用词的比值不超过所述设定阈值时,该方法还包括:
[0045]对于最新一次更新后的子词发音词典中的各子词,统计各子词在所有切分成功的通用词中的共现频率;
[0046]将共现频率超过设定频率阈值的共现子词合并,得到合并子词;
[0047]基于所述最新一次更新后的子词发音词典中,共现子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音数据;利用预训练的语音识别模型对所述待识别语音数据进行语音识别,得到识别结果;其中,所述语音识别模型包括基于第一子词发音词典及第一分词结果训练的语言模型,所述第一分词结果包括:利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别,并对识别错误的稀疏词进行重新分词所得的分词结果,所述第一子词发音词典包括:识别错误的稀疏词重新分词后的分词结果与对应的音素序列。2.根据权利要求1所述的方法,其特征在于,基于第一子词发音词典及第一分词结果训练语言模型的过程,包括:利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别;对识别错误的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列;利用重新分词后的分词结果及对应的音素序列,更新第一子词发音词典;基于更新后的第一子词发音词典及对识别错误的稀疏词重新分词后的分词结果,对所述初始语言模型进行二次训练,得到训练后的语言模型。3.根据权利要求2所述的方法,其特征在于,所述对识别错误的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列,包括:对识别错误的稀疏词,按照错误类型进行分类;针对每一错误类型下的稀疏词,按照错误类型对应的分词方式进行重新分词,得到重新分词后的分词结果及对应的音素序列。4.根据权利要求3所述的方法,其特征在于,所述错误类型包括替换错误;针对替换错误类型下的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列的过程,包括:计算稀疏词中发生替换错误的子词,与对应识别后子词的发音相似度;若所述发音相似度超过设定相似度阈值,则将稀疏词中发生替换错误的子词与相邻子词进行合并,并将发生替换错误的子词与相邻子词的音素序列合并,得到稀疏词的重新分词结果及对应的音素序列。5.根据权利要求4所述的方法,其特征在于,若确定所述发音相似度不超过设定相似度阈值,该方法还包括:将稀疏词作为重新分词后的一个整词,并将稀疏词的语音识别结果对应的发音音素序列作为整词的音素序列。6.根据权利要求4所述的方法,其特征在于,所述错误类型还包括删除错误和插入错误;针对删除错误和插入错误类型下的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列的过程,包括:判断稀疏词中发生删除错误或插入错误的子词,是否可以通过与相邻子词进行合并的方式,转换为替换错误类型;若可以,则按照替换错误类型下稀疏词重新分词的处理方式进行处理;若不可以,则将稀疏词作为重新分词后的一个整词,并将稀疏词的语音识别结果对应的发音音素序列作为整词的音素序列。
7.根据权利要求1

6任一项所述的方法,其特征在于,所述初始语言模型基于第二子词发音词典及第二分词结果训练得到,所述第二分词结果包括:基于所述第二子词发音词典包含的子词对稀疏词集中各稀疏词进行分词后的分词结果,所述第二子词发音词典包括多个子词及每一子词对应的音素序列,所述第二子词发音词典满足,在被用于对通用词进行分词时,分词后的各子词的音素序列能够组合恢复出通用词的音素序列的条件。8.根据权利要求7所述的方法,其特征在于,所述第二子词发音词典的确定过程,包括:基于通用词的发音词典,获取通用词的音素...

【专利技术属性】
技术研发人员:方昕吴艳飞刘俊华
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1