语音识别方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:32670731 阅读:19 留言:0更新日期:2022-03-17 11:25
本公开提供了语音识别方法、装置、设备、介质及程序产品,涉及计算机技术领域,尤其涉及语音技术领域。具体实现方案为:基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;分别对候选识别文本和待识别语音进行特征提取得到候选文本特征和语音特征;依据候选文本特征和语音特征,确定候选识别文本的置信度;依据候选识别文本的置信度,确定待识别语音的语音识别结果。本公开实施例的技术方案,可以提高语音识别的准确度。别的准确度。别的准确度。

【技术实现步骤摘要】
语音识别方法、装置、设备、介质及程序产品


[0001]本公开涉及计算机
,尤其涉及语音
,具体涉及一种语音识别方法、装置、设备、介质及程序产品。

技术介绍

[0002]语音识别技术是计算机识别和理解人类输入的语音信号,并把语音信号转变为相应的文本或命令的技术,是实现人与机器交互的重要途径之一。
[0003]语音识别技术现在已广泛应用于各种场景,例如,语音搜索、车载导航、语音输入法以及智能音箱等场景。随着语音识别应用场景的不断丰富,用户对语音识别的准确率也有了更高的要求。

技术实现思路

[0004]本公开提供了一种语音识别方法、装置、设备、介质及程序产品。
[0005]根据本公开的一方面,提供了一种语音识别方法,包括:
[0006]基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
[0007]分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
[0008]依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
[0009]依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
[0010]根据本公开的另一方面,提供了一种语音识别装置,包括:
[0011]候选识别文本确定模块,用于基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
[0012]特征提取模块,用于分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
[0013]置信度确定模块,用于依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
[0014]语音识别结果确定模块,用于依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
[0015]根据本公开的另一方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与至少一个处理器通信连接的存储器;其中,
[0018]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的语音识别方法。
[0019]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的语音识别方法。
[0020]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开任一实施例的语音识别方法。
[0021]本公开实施例可以提高语音识别准确率。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1是根据本公开实施例提供的一种语音识别方法的示意图;
[0025]图2是根据本公开实施例提供的一种语音识别方法的示意图;
[0026]图3是根据本公开实施例提供的一种语音识别方法的示意图;
[0027]图4是根据本公开实施例提供的一种语音识别装置的示意图;
[0028]图5是用来实现本公开实施例的语音识别方法的电子设备的框图;
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]图1是根据本公开实施例公开的一种语音识别方法的流程图,本实施例可以适用于基于不同语音识别场景对待识别语音进行语音识别的情况。本实施例方法可以由语音识别装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
[0031]S110、基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本。
[0032]语音识别场景能够表征包含语音识别环节的功能、应用或者设备等。示例性的,语音识别场景可以是语音搜索场景、语音输入法场景、虚拟个人助理的语音交互或语音指令场景,以及智能家居的语音指令或语音交互场景等。
[0033]针对不同的语音识别场景,语音识别的需求各不相同。具体的,在不同的语音识别场景下,对语音识别的速率和准确率的要求不相同。例如,语音搜索场景下,对语音识别的准确率要求较高,对语音识别的速率要求较低;在语音输入法场景,对语音识别的准确率要求较低,但对语音识别的速率要求较高;在虚拟个人助理的语音交互场景或者智能音箱的语音交互场景下,对语音识别的速率和准确率要求都比较高,这种情况下,对进行语音识别操作的设备计算力要求比较高。
[0034]针对上述情况,开发者往往针对不同的语音识别场景的训练目标,分别训练与各语音识别场景匹配的语音识别模型,来满足不同场景下对语音识别的要求。
[0035]本公开实施例中,在获取到待识别语音时,基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到针对各语音识别场景的候选识别文本。具体的,可以在获取到
待识别语音时,分别采用针对不同语音识别场景的解码器来进行语音识别,得到各解码器分别输出的候选识别文本,以在候选识别文本中选择置信度最高的,起到结合不同场景解码器的优势,提高语音识别准确度的效果。
[0036]示例性的,在获取到待识别语音后,分别采用针对语音搜索场景的解码器1、针对语音输入法场景的解码器2和针对智能音箱语音交互场景的解码器3对待识别语音进行识别,进而得到上述各解码器分别输出的候选识别文本。例如,解码器1输出的候选识别文本是“播放一首轻因悦”,解码器2输出的候选识别文本是“播放一首清音乐”,解码器3输出的候选识别文本是“播放一首轻音乐”。
[0037]S120、分别对候选识别文本和待识别语音进行特征提取得到候选文本特征和语音特征。
[0038]其中,候选文本特征通过对候选识别文本进行特征提取得到。具体的,可以通过预先训练的文本特征提取模型来对候选识别文本进行特征提取,得到候选文本特征。语音特征通过对待识别语音进行特征提取得到。具体的,可以通过预先训练的语音特征提取模型对待识别语音进行特征提取,得到语音特征。
[0039]本公开实施例中,为了在获取到的多个候选识别文本中,选择一个作为最终识别结果,需要确定各候选识别文本与待识别语音的匹配度。首先对候选识别文本和待识别语音进行特征提取,以根据提取到的候选文本特征和语音特征进行匹配,得到二者的匹配度。具体的,通过预先训练的文本特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。2.根据权利要求1所述的方法,其中,所述基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本,包括:采用至少两个解码器,分别对所述待识别语音进行语音识别,得到至少两个候选识别文本;其中,所述解码器采用设定语音识别场景中的语音样本确定。3.根据权利要求2所述的方法,其中,所述解码器包括针对语音搜索场景的解码器、针对语音输入法场景的解码器、针对语音指令场景的解码器、针对语音数据挖掘场景的解码器以及针对语音交互场景的解码器中的至少一项。4.根据权利要求1所述的方法,所述依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果,包括:根据候选识别文本的置信度,从所述候选识别文本中选择目标识别文本;在所述目标识别文本的置信度低于第一置信度阈值的情况下,对所述目标识别文本进行纠错,将纠错结果作为待识别语音的语音识别结果。5.根据权利要求4所述的方法,其中,所述对所述目标识别文本进行纠错,包括:将所述目标识别文本中置信度小于第二置信度阈值的字符,作为待纠错字符;依据所述待纠错字符关联的音素,以及所述目标识别文本中所述待纠错字的上下文信息,预测所述待纠错字所处位置的替换字,并采用所述替换字替换所述待纠错字。6.根据权利要求1

5任一所述的方法,其中,所述依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度,包括:对所述候选识别文本中的字符和待识别语音中的音素进行对齐,得到候选识别文本中字符所关联的音素;将候选文本特征中字符的文本特征,与语音特征中关联音素的音素特征进行匹配,得到候选识别文本中字符的置信度;根据所述字符的置信度,确定候选识别文本的置信度。7.一种语音识别装置,包括:候选识别文本确定模块,用于基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;特征提取模块,用于分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;置信度确定模块,用于依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;语音识别结果确定模块,用于依据所述候选识别文本的置信度,确定所...

【专利技术属性】
技术研发人员:王常刚蒋正翔
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1