一种语音识别方法、装置及存储介质制造方法及图纸

技术编号:34713381 阅读:15 留言:0更新日期:2022-08-31 17:54
本申请实施例提供一种语音识别方法、装置及存储介质,所述方法包括:边缘端获取云端识别结果,所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列;基于所述目标识别对象对应的本地参考文本,对所述至少一个目标序列进行修正,获得边缘端识别结果。本申请通过边缘端获取云端对目标识别对象的识别结果,并基于目标识别对象对应的本地参考文本,对云端识别结果进行修正,实现对云端的识别结果的优化,提高了语音识别的准确性。提高了语音识别的准确性。提高了语音识别的准确性。

【技术实现步骤摘要】
一种语音识别方法、装置及存储介质


[0001]本申请涉及计算机
,尤其涉及一种语音识别方法及装置。

技术介绍

[0002]随着互联网的发展,语音识别发挥了越来越重要的作用。自动语音识别技术(Automatic Speech Recognition,ASR)是使得机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。其中大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)技术近年来发展迅速,并在许多领域得到了广泛的应用。
[0003]现有技术中,通常采用云端部署的语音识别引擎,训练语言模型的语料一般采用通用领域的语料。但是,因为数据量有限,不可能覆盖到全部领域。在进行特定领域的语音识别任务时,例如进行医学、建筑学、人工智能等领域的语音识别任务时,因为语言模型在这些领域中覆盖不充分,或者出现很多没有出现在词典中的词汇(Out Of Vocabulary,OOV),这样会导致ASR识别性能下降,识别准确率降低。

技术实现思路

[0004]本申请实施例提供一种语音识别方法、装置及存储介质,用以解决现有技术中无法准确地对语音进行识别的缺陷,提高语音识别的准确率。
[0005]第一方面,本申请实施例提供一种语音识别方法,包括:
[0006]边缘端获取云端识别结果,所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列;基于所述目标识别对象对应的本地参考文本,对所述至少一个目标序列进行修正,获得边缘端识别结果。
[0007]可选地,根据本申请一个实施例的一种语音识别方法,所述基于所述目标识别对象对应的本地参考文本,对所述至少一个目标序列进行修正,获得边缘端识别结果,包括:
[0008]基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换;其中,所述目标序列对应的语言模型是基于所述本地参考文本训练获得的;
[0009]和/或,
[0010]基于命名实体识别NER,对所述目标序列中的一个所述备选序列进行词汇替换。
[0011]可选地,根据本申请一个实施例的一种语音识别方法,所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高;
[0012]其中,对于每一个所述目标序列,所述词汇匹配概率是基于所述目标序列对应的语言模型以及所述目标序列计算获得的;
[0013]所述目标序列的词汇匹配概率用于描述所述目标序列中的词汇在所述本地参考文本中出现的频率。
[0014]可选地,根据本申请一个实施例的一种语音识别方法,所述基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换,包
括:
[0015]基于所述目标序列对应的语言模型,获得所述备选序列中的连续词汇组合对应的连续匹配概率,其中,所述连续匹配概率用于表示所述连续匹配概率对应的连续词汇组合在所述本地参考文本中出现的频率;
[0016]若所述备选序列中的任一个连续词汇组合对应的所述连续匹配概率低于第一预设阈值,则通过所述本地参考文本中的替换文本,替换所述连续匹配概率低于第一预设阈值的第一连续词汇组合;
[0017]其中,所述替换文本对应的音素序列与所述第一连续词汇组合的音素序列的音素匹配度大于第二预设阈值,且所述替换文本比所述第一连续词汇组合在所述本地参考文本中的出现频率更高。
[0018]可选地,根据本申请一个实施例的一种语音识别方法,所述目标序列包括:音素序列,和/或,词序列;
[0019]相应地,所述音素序列对应的语言模型包括音素序列语言模型;所述词序列对应的语言模型包括词序列语言模型。
[0020]可选地,根据本申请一个实施例的一种语音识别方法,若所述目标序列包括音素序列,所述基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换,包括:
[0021]基于所述音素序列语言模型,对所述音素序列中的一个备选序列进行词汇替换,获得第一音素序列;
[0022]基于所述词序列语言模型,对所述第一音素序列对应的至少一个词序列中的一个备选序列,进行词汇替换。
[0023]可选地,根据本申请一个实施例的一种语音识别方法,若所述目标序列还包括词序列,所述基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换,还包括:
[0024]若第一词序列对应的第四匹配概率大于第二词序列对应的第四匹配概率,则确定所述第一词序列为所述边缘端识别结果;
[0025]若第二词序列对应的第四匹配概率大于第一词序列对应的第四匹配概率,则确定所述第二词序列为所述边缘端识别结果;
[0026]其中,所述第一词序列是,对所述第一音素序列对应的至少一个词序列中的一个备选序列进行词汇替换之后获得的;
[0027]所述第二词序列是,基于所述词序列语言模型,对所述目标序列中的词序列中的一个备选序列进行词汇替换之后获得的;
[0028]所述第一词序列对应的第四匹配概率用于描述所述第一词序列与所述本地参考文本的匹配程度;
[0029]所述第二词序列对应的第四匹配概率用于描述所述第二词序列与所述本地参考文本的匹配程度。
[0030]可选地,根据本申请一个实施例的一种语音识别方法,所述基于命名实体识别NER,对所述目标序列中的一个备选序列进行词汇替换,获得所述边缘端识别结果,包括:
[0031]基于所述NER词表,通过所述NER词表中的第一替换词汇替换所述目标序列中的一
个备选序列中的词汇,获得所述边缘端识别结果;
[0032]其中,所述替换词汇对应的音素序列与所述备选序列中的词汇的音素序列的音素匹配概率大于第三预设阈值。
[0033]可选地,根据本申请一个实施例的一种语音识别方法,所述方法还包括:
[0034]基于所述NER对所述本地参考文本进行识别,生成NER词表;
[0035]基于词典和/或字符转音素G2P技术,获得所述NER词表对应的音素。
[0036]可选地,根据本申请一个实施例的一种语音识别方法,所述本地参考文本包括:本地参考文本所属活动的专业信息、参与者信息、活动背景信息、和活动内容。
[0037]可选地,根据本申请一个实施例的一种语音识别方法,所述获得边缘端识别结果之后,所述方法还包括:
[0038]基于本地参考文本所属活动的专业信息,将所述本地参考文本的相关信息保存至服务器中。
[0039]第二方面,本申请实施例提供一种语音识别方法,包括:
[0040]设备端获取云端识别结果或边缘端识别结果,其中,所述云端识别结果包括云端对目标识别对象识别获得的一个目标序列;
[0041]基于设备端的本地词表,对所述一个目标序列进行修正,获得设备端识别结果。
[0042]可选地,根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:边缘端获取云端识别结果,所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列;基于所述目标识别对象对应的本地参考文本,对所述至少一个目标序列进行修正,获得边缘端识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述目标识别对象对应的本地参考文本,对所述至少一个目标序列进行修正,获得边缘端识别结果,包括:基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换;其中,所述目标序列对应的语言模型是基于所述本地参考文本训练获得的;和/或,基于命名实体识别NER,对所述目标序列中的一个所述备选序列进行词汇替换。3.根据权利要求2所述的语音识别方法,其特征在于,所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高;其中,对于每一个所述目标序列,所述词汇匹配概率是基于所述目标序列对应的语言模型以及所述目标序列计算获得的;所述目标序列的词汇匹配概率用于描述所述目标序列中的词汇在所述本地参考文本中出现的频率。4.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换,包括:基于所述目标序列对应的语言模型,获得所述备选序列中的连续词汇组合对应的连续匹配概率,其中,所述连续匹配概率用于表示所述连续匹配概率对应的连续词汇组合在所述本地参考文本中出现的频率;若所述备选序列中的任一个连续词汇组合对应的所述连续匹配概率低于第一预设阈值,则通过所述本地参考文本中的替换文本,替换所述连续匹配概率低于第一预设阈值的第一连续词汇组合;其中,所述替换文本对应的音素序列与所述第一连续词汇组合的音素序列的音素匹配度大于第二预设阈值,且所述替换文本比所述第一连续词汇组合在所述本地参考文本中的出现频率更高。5.根据权利要求2至4任一项所述的语音识别方法,其特征在于,所述目标序列包括:音素序列,和/或,词序列;相应地,所述音素序列对应的语言模型包括音素序列语言模型;所述词序列对应的语言模型包括词序列语言模型。6.根据权利要求5所述的语音识别方法,其特征在于,若所述目标序列包括音素序列,所述基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换,包括:基于所述音素序列语言模型,对所述音素序列中的一个备选序列进行词汇替换,获得第一音素序列;基于所述词序列语言模型,对所述第一音素序列对应的至少一个词序列中的一个备选
序列,进行词汇替换。7.根据权利要求6所述的语音识别方法,其特征在于,若所述目标序列还包括词序列,所述基于所述目标序列对应的语言模型和所述本地参考文本,对所述目标序列中的一个备选序列进行词汇替换,还包括:若第一词序列对应的第四匹配概率大于第二词序列对应的第四匹配概率,则确定所述第一词序列为所述边缘端识别结果;若第二词序列对应的第四匹配概率大于第一词序列对应的第四匹配概率,则确定所述第二词序列为所述边缘端识别结果;其中,所述第一词序列是,对所述第一音素序列对应的至少一个词序列中的一个备选序列进行词汇替换之后获得的;所述第二词序列是,基于所述词序列语言模型,对所述目标序列中的词序列中的一个备选序列进行词汇替换之后获得的;所述第一词序列对应的第四匹配概率用于描述所述第一词序列与所述本地参考文本的匹配程度;所述第二词序列对应的第四匹配概率用于描述所述第二词序列与所述本地参考文本的匹配...

【专利技术属性】
技术研发人员:张民沈欣蔚冯璟艳
申请(专利权)人:上海大唐移动通信设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1