语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:31838593 阅读:18 留言:0更新日期:2022-01-12 13:17
本申请提出一种语音识别方法、装置、设备及存储介质,该方法包括:获取待识别语音的声学状态序列;基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,其中,所述句式解码网络通过对所述待识别语音所属场景下的文本语料进行句式归纳和语法槽定义处理构建得到;利用所述语音识别解码网络对所述声学状态序列进行解码,得到语音识别结果。通过构建上述的语音识别解码网络,并用于语音识别,能够准确识别待识别语音,尤其是能够准确识别涉及垂类关键字的特定场景下的语音,特别是能准确识别语音中的垂类关键字。键字。键字。

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别
,具体涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]随着移动互联网、人工智能等技术的快速发展,人机交互场景已经大量出现在人们的日常生活生产过程中,而语音识别作为人机交互的重要接口,其应用越来越广泛。
[0003]当前语音识别最有效的方案就是使用神经网络技术对海量数据进行学习,得到语音识别模型,该模型在通用场景中识别效果非常好。理论上在数据充足,尽可能覆盖任何词汇的情况下,可以达到非常好的识别效果。
[0004]但是,在涉及垂类关键字的语音识别场景下,比如拨打手机联系人电话、给手机联系人发信息、查询城市天气情况、导航定位等场景下,现有的语音识别效果非常差,通常无法准确识别用户语音,尤其是对于用户语音中的人名、地名等垂类关键字,往往无法识别成功。

技术实现思路

[0005]基于上述技术现状,本申请实施例提出一种语音识别方法、装置、设备及存储介质,能够准确识别待识别语音,尤其是能够准确识别涉及垂类关键字的特定场景下的语音,特别是能准确识别语音中的垂类关键字。
[0006]一种语音识别方法,其特征在于,包括:
[0007]获取待识别语音的声学状态序列;
[0008]基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,其中,所述句式解码网络至少通过对所述待识别语音所属场景下的文本语料进行句式归纳处理构建得到;
[0009]利用所述语音识别解码网络对所述声学状态序列进行解码,得到语音识别结果。
[0010]一种语音识别方法,其特征在于,包括:
[0011]获取待识别语音的声学状态序列;
[0012]利用语音识别解码网络对所述声学状态序列进行解码,得到第一语音识别结果,以及,利用通用语音识别模型对所述声学状态序列进行解码,得到第二语音识别结果;所述语音识别解码网络基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络构建得到;
[0013]对所述第一语音识别结果进行声学得分激励;
[0014]至少从激励后的第一语音识别结果以及所述第二语音识别结果中,确定出最终的语音识别结果。
[0015]一种语音识别装置,其特征在于,包括:
[0016]声学识别单元,用于获取待识别语音的声学状态序列;
[0017]网络构建单元,用于基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,其中,所述句式解码网络至少通过对所述待识别语音所属场景下的文本语料进行句式归纳处理构建得到;
[0018]解码处理单元,用于利用所述语音识别解码网络对所述声学状态序列进行解码,得到语音识别结果。
[0019]一种语音识别装置,包括:
[0020]声学识别单元,用于获取待识别语音的声学状态序列;
[0021]多维解码单元,用于利用语音识别解码网络对所述声学状态序列进行解码,得到第一语音识别结果,以及,利用通用语音识别模型对所述声学状态序列进行解码,得到第二语音识别结果;所述语音识别解码网络基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络构建得到;
[0022]声学激励单元,用于对所述第一语音识别结果进行声学得分激励;
[0023]决策处理单元,用于至少从激励后的第一语音识别结果以及所述第二语音识别结果中,确定出最终的语音识别结果。
[0024]一种语音识别设备,包括:
[0025]存储器和处理器;
[0026]所述存储器与所述处理器连接,用于存储程序;
[0027]所述处理器,用于通过运行所述存储器中存储的程序,实现上述的语音识别方法。
[0028]一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的语音识别方法。
[0029]本申请提出的语音识别方法,能够基于待识别语音所属场景下的垂类关键字集合以及预先构建的该场景下的句式解码网络,构建语音识别解码网络。则在该语音识别解码网络中,包含待识别语音所属场景下的各种语音句式信息,同时包含待识别语音所属场景下的各种垂类关键字,利用该语音识别解码网络能够解码待识别语音所属场景下的任意句式、任意垂类关键字构成的语音。因此,通过构建上述的语音识别解码网络,能够准确识别待识别语音,尤其是能够准确识别涉及垂类关键字的特定场景下的语音,特别是能准确识别语音中的垂类关键字。
附图说明
[0030]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0031]图1是本申请实施例提供的一种语音识别方法的流程示意图;
[0032]图2是本申请实施例提供的一种词级句式解码网络的示意图;
[0033]图3是本申请实施例提供的另一种语音识别方法的流程示意图;
[0034]图4是本申请实施例提供的又一种语音识别方法的流程示意图;
[0035]图5是本申请实施例提供的又一种语音识别方法的流程示意图;
[0036]图6是本申请实施例提供的又一种语音识别方法的流程示意图;
[0037]图7是本申请实施例提供的一种文本句式网络的示意图;
[0038]图8是本申请实施例提供的一种发音级句式解码网络的示意图;
[0039]图9是本申请实施例提供的词级人名网络的示意图;
[0040]图10是本申请实施例提供的与图9所对应的发音级人名网络的示意图;
[0041]图11是本申请实施例提供的利用第二语音识别结果对第一语音识别结果进行修正的处理流程图;
[0042]图12是本申请实施例提供的从第一语音识别结果和第二语音识别结果中确定出最终的语音识别结果的处理流程图;
[0043]图13是本申请实施例提供的语音识别结果的状态网络的示意图;
[0044]图14是对图13所示的语音识别结果进行路径扩展后的状态网络的示意图;
[0045]图15是本申请实施例提供的一种语音识别装置的结构示意图;
[0046]图16是本申请实施例提供的另一种语音识别装置的结构示意图;
[0047]图17是本申请实施例提供的一种语音识别设备的结构示意图。
具体实施方式
[0048]本申请实施例技术方案适用于语音识别应用场景,采用本申请实施例技术方案,能够更加准确地识别语音内容,尤其是在涉及垂类关键字的特定业务场景下,能够更加准确地识别语音内容,尤其是能够准确识别语音中的垂类关键字,整体提升语音识别效果。
[0049]上述的垂类关键字,泛指属于同一类型的不同关键字,比如人名、地名、应用名称等分别构成不同的垂类关键字,具体例如,用户通讯录中的各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音的声学状态序列;基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,其中,所述句式解码网络至少通过对所述待识别语音所属场景下的文本语料进行句式归纳处理构建得到;利用所述语音识别解码网络对所述声学状态序列进行解码,得到语音识别结果。2.根据权利要求1所述的方法,其特征在于,基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,包括:将所述待识别语音所属场景下的垂类关键字集合传入云端服务器,以使所述云端服务器基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络。3.根据权利要求1所述的方法,其特征在于,所述语音识别结果作为第一语音识别结果;所述方法还包括:利用通用语音识别模型对所述声学状态序列进行解码,得到第二语音识别结果;至少从所述第一语音识别结果和所述第二语音识别结果中,确定出最终的语音识别结果。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过预先训练的场景定制模型,对所述声学状态序列进行解码得到第三语音识别结果;其中,所述场景定制模型,通过对所述待识别语音所属场景下的语音进行语音识别训练得到;所述至少从所述第一语音识别结果和所述第二语音识别结果中,确定出最终的语音识别结果,包括:从所述第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果中,确定出最终的语音识别结果。5.根据权利要求4所述的方法,其特征在于,从所述第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果中,确定出最终的语音识别结果,包括:分别对所述第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果进行语言模型激励;根据激励后的第一语音识别结果、第二语音识别结果和第三语音识别结果的语言得分,从所述第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果中确定出最终的语音识别结果。6.根据权利要求4所述的方法,其特征在于,从所述第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果中,确定出最终的语音识别结果,包括:对所述第一语音识别结果进行声学得分激励,以及,对所述第三语音识别结果进行语言模型激励;根据声学得分激励后的第一语音识别结果的声学得分,以及所述第二语音识别结果的声学得分,从所述第一语音识别结果和所述第二语音识别结果中确定出候选语音识别结果;
对所述候选语音识别结果进行语言模型激励;根据语言模型激励后的所述候选语音识别结果的语言得分,以及语言模型激励后的所述第三语音识别结果的语言得分,从所述候选语音识别结果和所述第三语音识别结果中确定出最终的语音识别结果。7.一种语音识别方法,其特征在于,包括:获取待识别语音的声学状态序列;利用语音识别解码网络对所述声学状态序列进行解码,得到第一语音识别结果,以及,利用通用语音识别模型对所述声学状态序列进行解码,得到第二语音识别结果;所述语音识别解码网络基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络构建得到;对所述第一语音识别结果进行声学得分激励;至少从激励后的第一语音识别结果以及所述第二语音识别结果中,确定出最终的语音识别结果。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:通过预先训练的场景定制模型,对所述声学状态序列进行解码得到第三语音识别结果;其中,所述场景定制模型,通过对所述待识别语音所属场景下的语音进行语音识别训练得到;所述至少从激励后的第一语音识别结果以及所述第二语音识别结果中,确定出最终的语音识别结果,包括:从激励后的第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果中,确定出最终的语音识别结果。9.根据权利要求8所述的方法,其特征在于,所述从激励后的第一语音识别结果、所述第二语音识别结果和所述第三语音识别结果中,确定出最终的语音识别结果,包括:根据声学得分激励后的第一语音识别结果的声学得分,以及所述第二语音识别结果的声学得分,从所述第一语音识别结果和所述第二语音识别结果中确定出候选语音识别结果;对所述候选语音识别结果以及所述第三语音识别结果分别进行语言模型激励;根据语言模型激励后的所述候选语音识别结果的语言得分,以及语言模型激励后的所述第三语音识别结果的语言得分,从所述候选语音识别结果和所述第三语音识别结果中确定出最终的语音识别结果。10.根据权利要求1至9中任意一项所述的方法,其特征在于,所述待识别语音所属场景下的句式解码网络通过如下处理构建得到:通过对所述待识别语音所属场景下的语料数据进行句式归纳和语法槽定义处理,构建文本句式网络;其中,所述文本句式网络中包括对应非垂类关键字的普通语法槽和对应垂类关键字的替换语法槽,所述替换语法槽中存储与垂类关键字对应的占位符;对所述文本句式网络的普通语法槽中的词条进行分词并按照分词结果进行单词节点扩展,得到词级句式解码网络;将所述词级句式解码网络的普通语法槽中的各个单词替换为对应的发音,并按照单词对应的发音进行发音节点扩展,得到发音级句式解码网络,所述发音级句式解码网络作为
所述待识别语音所属场景下的句式解码网络。11.根据权利要求1至9中任意一项所述的方法,其特征在于,基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,包括:获取预先构建的所述待识别语音所属场景下的句式解码网络;基于待识别语音所属场景下的垂类关键字集合中的垂类关键字,构建垂类关键字网络;将所述垂类关键字网络插入所述句式解码网络,得到语音识别解码网络。12.根据权利要求11所述的方法,其特征在于,所述基于待识别语音所属场景下的垂类关键字集合中的垂类关键字,构建垂类关键字网络,包括:基于待识别语音所属场景下的垂类关键字集合中的各个垂类关键字,构建词级垂类关键字网络;将所述词级垂类关键字网络中的各个单词替换为对应的发音,并按照单词对应的发音进行发音节点扩展,得到发音级垂类关键字网络。13.根据权利要求11所述的方法,其特征在于,所述垂类关键字网络和所述句式解码网络均由节点和连接节点的有向弧构成,在节点间的有向弧上存储发音信息或占位符;将所述垂类关键字网络插入所述句式解码网络,得到语音识别解码网络,包括:通过有向弧将所述垂类关键字网络与所述句式解码网络的替换语法槽的左右节点分别连接,构建得到语音识别解码网络。14.根据权利要求13所述的方法,其特征在于,所述垂类关键字网络中的每个关键字的第一条弧和最后一条弧上分别存储与该关键字对应的唯一标识;当所述垂类关键字网络中的关键字被插入所述句式解码网络时,将该关键字的唯一标识,以及该唯一标识所在的有向弧在该句式解码网络中的左右节点编号,对应存储至已入网关键字信息集合中;其中,所述已入网关键字信息集合中,对应存储已经插入句式解码网络的关键字的唯一标识,以及该唯一标识所在的有向弧在该句式解码网络中的左右节点编号;。15.根据权利要求14所述的方法,其特征在于,还包括:遍历所述已入网关键字信息集合中的各个唯一标识;如果遍历到的唯一标识不是所述待识别语音所属场景下的垂类关键字集合中的任意关键字的唯一标识,则将该唯一标识对...

【专利技术属性】
技术研发人员:李永超朱晓斐王众方昕
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利