实时语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:20122420 阅读:25 留言:0更新日期:2019-01-16 12:52
本发明专利技术实施例公开了一种实时语音识别方法。该方法包括:对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;采用至少两个语言模型对每个基础候选词在至少一个识别路径下进行打分;根据各语言模型对每个基础候选词的打分结果,得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分;根据与音频数据中的各分词对应的标准候选词以及综合得分,确定与音频数据对应的语音识别结果。本发明专利技术实施例提供的技术方案,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢和识别准确率不高的问题,提高了语音识别的速度和准确率。

Real-time speech recognition methods, devices, devices and storage media

The embodiment of the present invention discloses a real-time speech recognition method. The method includes: real-time segmentation of received audio data to obtain at least one basic candidate word for current segmentation; scoring each basic candidate word under at least one recognition path using at least two language models; scoring results of each basic candidate word according to each language model to obtain standard candidate words under at least one recognition path for current segmentation. According to the standard candidate words and the comprehensive score corresponding to each word in the audio data, the speech recognition results corresponding to the audio data are determined. The technical scheme provided by the embodiment of the present invention solves the problems of slow recognition speed and low recognition accuracy in speech recognition using two-pass decoding in the prior art, and improves the speed and accuracy of speech recognition.

【技术实现步骤摘要】
实时语音识别方法、装置、设备及存储介质
本专利技术实施例涉及多媒体
,特别是涉及一种实时语音识别方法、装置、设备及存储介质。
技术介绍
随着技术的发展,音频数据的使用日益频繁,为了从音频数据中获取到有用的信息,需要利用语音识别技术对音频数据进行识别,将音频数据转换为文字信息。语言模型是语音识别系统中非常重要的一个模块,对音频数据最终的识别准确率有着很重要的影响。为了提高识别准确率,需要训练大规模的语言模型,但是,目前主流的语音识别技术解码图的方法不能直接利用较大规模的语言模型。为了在语音识别系统中使用大规模的语言模型,通常会用到语言模型重打分技术。现有技术中,语言模型重打分技术需要对音频数据进行两遍解码,第一遍解码生成候选句子列表,第二遍解码利用大规模语言模型对候选句子列表重新打分,选出新的最佳路径,作为最终的识别结果。现有技术中采用两遍解码的方式进行语音识别,会影响语音识别的实时率,语音识别速度变慢,同时,语音识别的中间结果不能利用大规模语言模型的信息,使得识别准确率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种实时语音识别方法、装置、设备及存储介质,主要目的在于解决现有语音识别技术中采用两遍解码带来的识别速度慢、识别准确率较低的问题。为了解决上述问题,本专利技术实施例主要提供如下技术方案:第一方面,本专利技术实施例提供了一种实时语音识别方法,该方法包括:对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。可选的,采用语言模型对所述基础候选词在至少一个识别路径下进行打分,包括:判断所述当前分词是否为所述音频数据中的首个分词;若是,则将所述基础候选词的识别路径设置为空,并采用所述语言模型,对所述基础候选词进行打分;若否,则获取所述当前分词的相邻历史处理分词,并获取所述相邻历史处理分词的全部历史标准候选词;将各所述历史标准候选词加入至对应的历史识别路径中,作为所述基础候选词的识别路径,并采用所述语言模型分别计算在各所述识别路径下所述基础候选词的条件概率,作为所述基础候选词在至少一个识别路径下的打分结果。可选的,根据各所述语言模型对所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分,包括:分别获取各所述语言模型对目标基础候选词在目标识别路径下的多个打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分;在每个基础候选词在至少一个识别路径下的综合得分中,根据得分值的大小,获取设定数量的综合得分对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。可选的,根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果,包括:根据所述音频数据的末位分词在至少一个识别路径下的标准候选词,构造多个可选识别路径;根据与所述音频数据中的各分词对应的标准候选词,计算各所述可选识别路径对应的路径得分;将路径得分最高一个可选识别路径中包括的各个标准候选词的组合,确定与为所述音频数据对应的语音识别结果。可选的,所述语言模型包括:第一语言模型以及第二语言模型,所述第一语言模型与所述第二语言模型的数据规模不同。可选的,分别获取各所述语言模型对目标基础候选词在目标识别路径下的打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分,包括:采用第一语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第一语言模型得分,将所述目标基础候选词和第一语言模型得分存入所述目标基础候选词对应的解码令牌中;采用第二语言模型计算目标基础候选词在目标识别路径下的条件概率,得到第二语言模型得分;对所述第一语言模型得分和第二语言模型得分进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分,将所述目标基础候选词对应的解码令牌中的第一语言模型得分替换为所述综合得分;其中,所述第一语言模型与所述第二语言模型的数据规模不同。可选的,对所述第一语言模型得分和第二语言模型得分进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分包括:根据公式:c=a*第一语言模型得分+b*第二语言模型得分计算所述目标基础候选词在目标识别路径下的综合得分c;其中,a、b为设定权重系数,且a+b=1。第二方面,本专利技术实施例还提供一种实时语音识别装置,该装置包括:分词识别模块,用于对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;语言模型打分模块,用于采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;候选词选择模块,用于根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;识别结果确定模块,用于根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。第三方面,本专利技术实施例还提供一种电子设备,包括:至少一个处理器;以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行本专利技术任意实施例提供的实时语音识别方法。第四方面,本专利技术实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本专利技术任意实施例提供的实时语音识别方法。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的实时语音识别方法,对接收的音频数据进行实时的分词识别,通过至少两个语言模型对每个分词进行打分,根据每个分词的综合得分,确定与音频数据对应的语音识别结果,本专利技术实施例通过对音频数据进行实时分词识别和实时打分,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢的问题,提高了语音识别的速度,同时,语音识别的中间结果也利用了大规模语言模型的信息,提高了语音识别的准确率。上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例一提供的一种实时语音识别方法的流程图;图2示出了本专利技术实施例二提供的一种实时语音识别方法的流程图;图3示出了本专利技术实施例三提供的一种实时语音识别装置的结构示意图;图4示出了本专利技术实施例四提供的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中本文档来自技高网...

【技术保护点】
1.一种实时语音识别方法,其特征在于,包括:对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。

【技术特征摘要】
1.一种实时语音识别方法,其特征在于,包括:对接收的音频数据进行实时分词识别,得到当前分词的至少一个基础候选词;采用至少两个语言模型对每个所述基础候选词在至少一个识别路径下进行打分;根据各所述语言模型对每个所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,采用语言模型对所述基础候选词在至少一个识别路径下进行打分,包括:判断所述当前分词是否为所述音频数据中的首个分词;若是,则将所述基础候选词的识别路径设置为空,并采用所述语言模型,对所述基础候选词进行打分;若否,则获取所述当前分词的相邻历史处理分词,并获取所述相邻历史处理分词的全部历史标准候选词;将各所述历史标准候选词加入至对应的历史识别路径中,作为所述基础候选词的识别路径,并采用所述语言模型分别计算在各所述识别路径下所述基础候选词的条件概率,作为所述基础候选词在至少一个识别路径下的打分结果。3.根据权利要求2所述的方法,其特征在于,根据各所述语言模型对所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分,包括:分别获取各所述语言模型对目标基础候选词在目标识别路径下的多个打分结果进行插值计算,得到所述目标基础候选词在目标识别路径下的综合得分;在每个基础候选词在至少一个识别路径下的综合得分中,根据得分值的大小,获取设定数量的综合得分对应的识别路径下的基础候选词作为当前分词在至少一个识别路径下的标准候选词。4.根据权利要求1所述的方法,其特征在于,根据与所述音频数据中的各分词对应的标准候选词以及综合得分,确定与所述音频数据对应的语音识别结果,包括:根据所述音频数据的末位分词在至少一个识别路径下的标准候选词,构造多个可选识别路径;根据与所述音频数据中的各分词对应的标准候选词,计算各所述可选识别路径对应的路径得分;将路径得分最高一个可选识别路径中包括的各个标准候选词的组合,确定与为所述音频数据对应的语音识别结果。5.根据权利要求1-4任一项所述的方法,其特征在于,所述语言模型包括:第一语言模型以及第二语言模...

【专利技术属性】
技术研发人员:邹明
申请(专利权)人:北京羽扇智信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1