【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
[0001]本申请涉及语音识别
,更具体的说,是涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
[0002]近年来,随着人工智能技术的飞速发展,越来越多的人工智能设备参与到普通大众的生活、工作中。而语音交互作为无接触、最自然的一种人机交互方式,广泛应用于各种人工智能设备中,搭建起人类与机器交流的桥梁。
[0003]目前,深度学习的语音识别技术已经日趋成熟,语音识别技术在很多场景下的识别率已经达到令人满意的效果,但是对于一些特定垂类下的语音识别,相较于通用的语音识别,通常会存在海量的稀疏实体词(简称稀疏词,又称专有名词),这些稀疏词在通用语音识别模型的训练过程中可能从未出现过,基于此模型无法识别这部分词汇,导致对于稀疏词的语音识别准确率很低。
技术实现思路
[0004]鉴于上述问题,提出了本申请以便提供一种语音识别方法、装置、设备及存储介质,以实现提升对稀疏词的语音识别准确率。具体方案如下:
[0005]在本申请的第一方面,提供了一种语音识别方法,包括:
[0006]获取待识别语音数据;
[0007]利用预训练的语音识别模型对所述待识别语音数据进行语音识别,得到识别结果;
[0008]其中,所述语音识别模型包括基于第一子词发音词典及第一分词结果训练的语言模型,所述第一分词结果包括:利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别,并对识别错误的稀疏词进行重新分词所得的分词结果,所述第一子词发音词典包括 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音数据;利用预训练的语音识别模型对所述待识别语音数据进行语音识别,得到识别结果;其中,所述语音识别模型包括基于第一子词发音词典及第一分词结果训练的语言模型,所述第一分词结果包括:利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别,并对识别错误的稀疏词进行重新分词所得的分词结果,所述第一子词发音词典包括:识别错误的稀疏词重新分词后的分词结果与对应的音素序列。2.根据权利要求1所述的方法,其特征在于,基于第一子词发音词典及第一分词结果训练语言模型的过程,包括:利用包含初始语言模型的语音识别模型,对包含稀疏词的语音进行识别;对识别错误的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列;利用重新分词后的分词结果及对应的音素序列,更新第一子词发音词典;基于更新后的第一子词发音词典及对识别错误的稀疏词重新分词后的分词结果,对所述初始语言模型进行二次训练,得到训练后的语言模型。3.根据权利要求2所述的方法,其特征在于,所述对识别错误的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列,包括:对识别错误的稀疏词,按照错误类型进行分类;针对每一错误类型下的稀疏词,按照错误类型对应的分词方式进行重新分词,得到重新分词后的分词结果及对应的音素序列。4.根据权利要求3所述的方法,其特征在于,所述错误类型包括替换错误;针对替换错误类型下的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列的过程,包括:计算稀疏词中发生替换错误的子词,与对应识别后子词的发音相似度;若所述发音相似度超过设定相似度阈值,则将稀疏词中发生替换错误的子词与相邻子词进行合并,并将发生替换错误的子词与相邻子词的音素序列合并,得到稀疏词的重新分词结果及对应的音素序列。5.根据权利要求4所述的方法,其特征在于,若确定所述发音相似度不超过设定相似度阈值,该方法还包括:将稀疏词作为重新分词后的一个整词,并将稀疏词的语音识别结果对应的发音音素序列作为整词的音素序列。6.根据权利要求4所述的方法,其特征在于,所述错误类型还包括删除错误和插入错误;针对删除错误和插入错误类型下的稀疏词进行重新分词,得到重新分词后的分词结果及对应的音素序列的过程,包括:判断稀疏词中发生删除错误或插入错误的子词,是否可以通过与相邻子词进行合并的方式,转换为替换错误类型;若可以,则按照替换错误类型下稀疏词重新分词的处理方式进行处理;若不可以,则将稀疏词作为重新分词后的一个整词,并将稀疏词的语音识别结果对应的发音音素序列作为整词的音素序列。
7.根据权利要求1
‑
6任一项所述的方法,其特征在于,所述初始语言模型基于第二子词发音词典及第二分词结果训练得到,所述第二分词结果包括:基于所述第二子词发音词典包含的子词对稀疏词集中各稀疏词进行分词后的分词结果,所述第二子词发音词典包括多个子词及每一子词对应的音素序列,所述第二子词发音词典满足,在被用于对通用词进行分词时,分词后的各子词的音素序列能够组合恢复出通用词的音素序列的条件。8.根据权利要求7所述的方法,其特征在于,所述第二子词发音词典的确定过程,包括:基于通用词的发音词典,获取通用词的音素...
【专利技术属性】
技术研发人员:方昕,吴艳飞,刘俊华,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。