语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:28790872 阅读:29 留言:0更新日期:2021-06-09 11:27
本申请提供一种语音识别方法、装置、设备及存储介质,其中,语音识别方法包括:获取输入语音;基于声学模型和第一语言模型对所述输入语音进行解码,得到所述输入语音的第一识别文本;对所述输入语音的第一识别文本进行话术分类,以标记出所述输入语音的第一识别文本的类别标签;根据所述第一识别文本的类别标签选择第二语言模型,所述第二语言模型根据所述第一识别文本的类别标签对应的训练样本得到;根据所述语言模型对所述输入语音重新对所述输入语音进行解码,以得到所述输入语音的第二识别文本。本申请能够在提供重点领域的语音识别精确度的同时,不降低非重点语音的识别精度,且本申请具有易于更新的优点。本申请具有易于更新的优点。本申请具有易于更新的优点。

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别领域,具体而言,涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]车载语音助手发展在近几年越来越受到大众的关注。场景为用户在开车途中,能借助一个车内助手方便的完成驾驶员一些指令,又能免于驾驶员触摸屏幕做点击动作,如此安全又方便的方式,为驾车人带来愉悦舒适的体验。车内语音助手与用户交互的方式,首先是接受用户发出的语音,将其经过语音识别系统识别为文字后,再对文本做自然语言处理,给出车机反馈。目前,车机助手通常包含的功能有:车控部分,例如打开车窗、调节空调温度等;媒体部分,例如播放某歌曲,播放某广播电台;导航部分,例如导航去某地,导航走躲避拥堵路线等;通话部分,例如给某人打电话,接听某人的电话等。如上应用是驾车人在开车场景中常常出现的几种需求,借助车内语音助手,可以在驾驶员免于低头查找及点击屏幕的情况下,仅靠语音发出指令,由车机助手完成指令动作,这对于驾车人的驾车安全性,驾车愉悦度方面都是质的提升。
[0003]在如上四种应用场景中,尤为后三种场景接受到的语音指令比较复杂。媒体播放领域,包含的歌名,歌手名名目繁多,且更新较快;导航领域,包含的店铺名,道路名也极其繁多。通话领域,包含的人名也会名目繁多又有变化。
[0004]常规的语音识别系统,包含一个声学模型和一个语言模型。其中语言模型由大量文本训练生成。在语音识别过程中,此处称之为解码过程中,对输入的语音,先经过声学模型和三阶的语言模型,给出解码的识别文本结果,此处得到多个备选项,称为NBEST,再对这些得到的识别结果,再次经过更高阶的语言模型做重新解码,最终将重新解码后语言模型得分最高的结果作为识别结果输出。由此可见,语音识别系统中,语言模型占据很重要的位置。
[0005]常规方法是语言模型使用各种领域的大量文本训练生成,包括媒体领域,导航领域,通话领域,如此必然会加入大量该三块领域的文本,导致语言模型大小变得庞大且不易更新,同时大量的此三类领域的文本加入,会降低其他领域在语言模型中的概率,比如闲聊领域,天气查询领域,车控领域等,从而降低其他领域输入句子的识别准确率。

技术实现思路

[0006]本申请实施例的目的在于提供一种语音识别方法、装置、设备及存储介质,用以结合自然语言处理的话术分类模型以及分领域的语言模型进行语音识别,从而提升语音识别效果,尤其是能够在车机助手使用场景中,提高重点领域的语音识别精确度,而不降低非重点领域的语音识别效果。
[0007]为此,本申请第一方面公开一种语音识别方法,所述方法包括:
[0008]获取输入语音;
[0009]基于声学模型和第一语言模型对所述输入语音进行解码,得到所述输入语音的第一识别文本;
[0010]对所述输入语音的第一识别文本进行话术分类,以标记出所述输入语音的第一识别文本的类别标签;
[0011]根据所述第一识别文本的类别标签选择第二语言模型,所述第二语言模型根据所述第一识别文本的类别标签对应的训练样本得到;
[0012]根据所述第二语言模型对所述输入语音进行解码,以得到所述输入语音的第二识别文本。
[0013]在本申请第一方面中,通过根据声学模型和第一语言模型输入语音进行初步解码,进而能够得到输入语音的第一识别文本,进一步地,通过对第一识别文本进行话术分类,这样一来,就能够根据第一识别文本的类别匹配所述第二语言模型,其中,第二语音模型是预先根据第一识别文本的类别标签对应的训练样本得到,进而使得第二语音模型能够针对一种重点领域内的文本处理并提高一种领域的文本识别精确度,即能够通过第二语言模型输出识别精确度更高的第二识别文本,另一方面,通过第一语言模型能够不降低非重点的语音识别精确度。
[0014]在本申请第一方面中,作为一种可选的实施方式,所述基于声学模型和第一语言模型对所述输入语音进行解码,并得到所述输入语音的第一识别文本,包括:
[0015]获取发音词典和词表中的音素列表;
[0016]根据所述发音词典、所述词表中的音素列表、所述声学模型和所述第一语言模型生成解码网络;
[0017]将所述输入语音作为所述解码网络的输入,以使得所述解码网络对所述输入语音进行解码并输出所述输入语音的最优路径,所述输入语音的最优路径由若干个词语组成;
[0018]将所述输入语音的最优路径作为所述输入语音的第一识别文本。
[0019]在本可选的实施方式中,通过获取发音词典和词表中的音素列表,进而能够根据发音词典、词表中的音素列表、声学模型和第一语言模型生成解码网络,进而能够将输入语音作为解码网络的输入,以使得解码网络对输入语音进行解码并输出输入语音的最优路径,输入语音的最优路径由若干个词语组成,进而能够将输入语音的最优路径作为输入语音的第一识别文本。
[0020]在本申请第一方面中,作为一种可选的实施方式,所述对所述输入语音的第一识别文本进行话术分类,以标记出所述输入语音的第一识别文本的类别标签,包括:
[0021]将所述输入语音的第一识别文本作为预先训练得到的话术分类模型的输入,使得所述话术分类模型输出所述第一识别文本的若干种标签概率;
[0022]根据所述若干种标签概率将概率最高的标签作为所述输入语音的第一识别文本的类别标签。
[0023]在本可选的实施方式中,通过将所述输入语音的第一识别文本作为预先训练得到的话术分类模型的输入,进而能够使得所述话术分类模型输出所述第一识别文本的若干种标签概率,从而能够从所述若干种标签概率中,将概率最高的标签作为所述输入语音的第一识别文本的类别标签。
[0024]在本申请第一方面中,作为一种可选的实施方式,在所述将所述输入语音的第一
识别文本作为预先训练得到的话术分类模型的输入,使得所述话术分类模型输出所述第一识别文本的若干种标签概率之前,所述方法还包括:
[0025]获取的训练集,所述训练集包括若干训练文本;
[0026]根据训练算法训练所述训练集中的所述若干训练文本,并得到所述话术分类模型,所述训练算法为深度学习算法。
[0027]在本可选的实施方式中,通过获取包括若干训练文本的训练集,进而能够根据训练算法训练所述训练集中的所述若干训练文本,并得到所述话术分类模型。
[0028]在本申请第一方面中,作为一种可选的实施方式中,所述输入语音的第一识别文本的类别标签为导航标签、媒体标签、通话标签中的一种或几种的组合,所述第二语言模型包括导航类语言模型、媒体类语言模型、通话类语言模型中的一种或几种的组合。
[0029]在本可选的实施方式中,通过将导航标签、媒体标签、通话标签与输入语音的第一识别文本关联,进而能够选择导航类语言模型、媒体类语言模型、通话类语言模型中的一种模型对第一识别文本进行处理,从而得到识别精确度更高的第二识别文本。
[0030]在本申请第一方面中,作为一种可选的实施方式,在所述根据所述第一识别文本的类别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取输入语音;基于声学模型和第一语言模型对所述输入语音进行解码,得到所述输入语音的第一识别文本;对所述输入语音的第一识别文本进行话术分类,以标记出所述输入语音的第一识别文本的类别标签;根据所述第一识别文本的类别标签选择第二语言模型,所述第二语言模型根据所述第一识别文本的类别标签对应的训练样本得到;根据所述第二语言模型对所述输入语音进行解码,以得到所述输入语音的第二识别文本。2.如权利要求1所述的方法,其特征在于,所述基于声学模型和第一语言模型对所述输入语音进行解码,得到所述输入语音的第一识别文本,包括:获取发音词典和词表中的音素列表;根据所述发音词典、所述词表中的音素列表、所述声学模型和所述第一语言模型生成解码网络;将所述输入语音作为所述解码网络的输入,以使得所述解码网络对所述输入语音进行解码并输出所述输入语音的最优路径,所述输入语音的最优路径由若干个词语组成;将所述输入语音的最优路径作为所述输入语音的第一识别文本。3.如权利要求1所述的方法,其特征在于,所述对所述输入语音的第一识别文本进行话术分类,以标记出所述输入语音的第一识别文本的类别标签,包括:将所述输入语音的第一识别文本作为预先训练得到的话术分类模型的输入,使得所述话术分类模型输出所述第一识别文本的若干种标签概率;根据所述若干种标签概率将概率最高的标签作为所述输入语音的第一识别文本的类别标签。4.如权利要求3所述的方法,其特征在于,在所述将所述输入语音的第一识别文本作为预先训练得到的话术分类模型的输入,使得所述话术分类模型输出所述第一识别文本的若干种标签概率之前,所述方法还包括:获取训练集,所述训练集包括若干训练文本;根据训练算法训练所述训练集中的所述若干训练文本,并得到所述话术分类模型,所述训练算法为深度学习算法。5.如权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:李洁琼邵鹏应臻奕李国庆
申请(专利权)人:上海仙豆智能机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1