一种基于语音识别的信息查询方法及系统、设备和存储介质技术方案

技术编号:30906397 阅读:20 留言:0更新日期:2021-11-22 23:52
本申请公开了一种基于语音识别的信息查询方法、系统、计算机设备和计算机可读存储介质。其方法技术方案包括步骤:编码步骤用于输入音频数据,采用transformer编码器进行特征值提取,输出二维特征值序列;解码步骤:基于二维特征值序列,采用transformer和n

【技术实现步骤摘要】
一种基于语音识别的信息查询方法及系统、设备和存储介质


[0001]本申请涉及信息查询领域,特别是涉及一种基于语音识别的信息查询方法、系统、计算机设备和计算机可读存储介质。

技术介绍

[0002]当前,随着语音识别技术的发展,可以发现语音识别用户接受程度高、操作方便,不涉及用户隐私问题,推广语音识别相关应用更为方便。
[0003]从场景上,语音识别可以分为流式语音识别和非流式语音识别。非流式语音识别(离线识别)是指模型在用户说完一句话或一段话之后再进行识别,而流式语音识别则是指模型在用户还在说话的时候便同步进行语音识别。流式语音识别因为其延时低的特点,在工业界中有着广泛的应用,例如听写转录等。
[0004]Transformer模型在自然语言领域被提出后,目前已经扩展到了计算机视觉、语音等诸多领域。Transformer模型在流式的语音识别场景下有着更好的准确率。
[0005]N

Gram是大词汇连续语音识别中常用的一种语言模型,N

Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
[0006]目前,现有技术中采用的流式与非流式语音识别统一模型通常为共享的Encoder、CTC解码器、Attention解码器,共享Encoder包含多层transformer或者conformer,CTC解码器为一个全连接层和一个softmax层,Attention解码器包含多层transformer层。
[0007]但是,该流式与非流式语音识别统一模型存在着缺乏特定专用词汇及不同上下文语境下的语音识别,同时,现有技术语音识别方法对于不常用词语的概率估计准确率低,对特定专用词无法实现增加权重,以提升专用名词的识别准确率。
[0008]本专利技术提供了一套解决基于语音识别的信息查询的解决方案,实现流式与非流式语音识别相结合的算法模型,同时,在解码过程中设计的两个语言模型和解码结束后的热词赋权,以增加特定专用名词和专用话术的识别率。

技术实现思路

[0009]本申请实施例提供了一种基于语音识别的信息查询解决方案,实现流式与非流式语音识别相结合的算法模型,同时,在解码过程中设计的两个语言模型和解码结束后的热词赋权,以增加特定专用名词和专用话术的识别率。
[0010]第一方面,本申请实施例提供了基于语音识别的信息查询方法,采用流式和非流式混合语音识别,方法包括:
[0011]编码步骤:输入音频数据,采用transformer编码器进行特征值提取,输出二维特征值序列;
[0012]解码步骤:基于所述二维特征值序列,采用transformer和n

gram结合的解码器进行流式语音解码及识别后,筛选输出第一次文本排序M个结果后,基于所述二维特征值序列
及所述第一次匹配文本排序M个结果,采用conformer模型进行非流式语音解码及识别,输出第二次文本排序N个结果,其中N和M为大于等于1的正整数,且N小于等于M;
[0013]赋值加权步骤:在所述解码步骤输出的文本排序结果中,基于热词词典进行赋值加权,输出最优查询结果。
[0014]在其中一些实施例中,上述解码步骤包括:
[0015]Transformer和n

gram结合解码步骤:Transformer模型基于日常用语语料库和n

gram模型基于特定专用语料库结合进行解码识别,并采用prefix beam search对解码识别结果进行筛选排序,输出所述第一次文本排序M个结果。
[0016]在其中一些实施例中,上述解码步骤还包括:
[0017]conformer解码步骤:基于所述二维特征值序列及所述第一次解码文本排序M个结果,采用conformer模型进行结合语音及语境的解码和识别,输出第二次文本排序N个结果,其中N为大于等于1的正整数,且N小于等于M。
[0018]在其中一些实施例中,上述赋值加权步骤包括:
[0019]遍历步骤:将解码步骤输出的文本排序结果,逐一与热词字典进行热词遍历匹配;
[0020]加权步骤:如果热词匹配成功,匹配成功的文本增加加权得分,最终选择得分最高的一项作为最佳输出结果。
[0021]第二方面,本申请实施例提供了一种基于语音识别的信息查询系统,采用流式和非流式混合语音识别,采用如上述任意一项基于语音识别的信息查询方法,其特征在于,系统包括:
[0022]编码模块:输入音频数据,采用transformer编码器进行特征值提取,输出二维特征值序列;
[0023]解码模块:基于所述二维特征值序列,采用transformer和n

gram结合的解码器进行流式语音解码及识别后,筛选输出第一次文本排序M个结果后,基于所述二维特征值序列及所述第一次匹配文本排序M个结果,采用conformer模型进行非流式语音解码及识别,输出第二次文本排序N个结果,其中N和M为大于等于1的正整数,且N小于等于M;
[0024]赋值加权模块:在所述解码步骤输出的文本排序结果中,基于热词词典进行赋值加权,输出最优查询结果。
[0025]在其中一些实施例中,上述解码模块包括:
[0026]Transformer和n

gram结合解码模块:Transformer模型基于日常用语语料库和n

gram模型基于特定专用语料库结合进行解码识别,并采用prefix beam search对解码识别结果进行筛选排序,输出所述第一次文本排序M个结果。
[0027]在其中一些实施例中,上述解码模块还包括:
[0028]conformer解码模块:基于所述二维特征值序列及所述第一次解码文本排序M个结果,采用conformer模型进行结合语音及语境的解码和识别,输出第二次文本排序N个结果,其中N为大于等于1的正整数,且N小于等于M。
[0029]在其中一些实施例中,上述赋值加权模块包括:
[0030]遍历模块:将解码步骤输出的文本排序结果,逐一与热词字典进行热词遍历匹配;
[0031]加权模块:如果热词匹配成功,匹配成功的文本增加加权得分,最终选择得分最高的一项作为最佳输出结果。
[0032]第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述第一方面的基于语音识别的信息查询方法。
[0033]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于语音识别的信息查询方法。
[0034]相比于相关现有技术,具有以下突出的有益效果:
[0035]1、本专利技术模型采用流式

非流式结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的信息查询方法,采用流式和非流式混合语音识别,其特征在于,所述方法包括:编码步骤:输入音频数据,采用transformer编码器进行特征值提取,输出二维特征值序列;解码步骤:基于所述二维特征值序列,采用transformer和n

gram结合的解码器进行流式语音解码及识别后,筛选输出第一次文本排序M个结果后,基于所述二维特征值序列及所述第一次匹配文本排序M个结果,采用conformer模型进行非流式语音解码及识别,输出第二次文本排序N个结果,其中N和M为大于等于1的正整数,且N小于等于M;赋值加权步骤:在所述解码步骤输出的文本排序结果中,基于热词词典进行赋值加权,输出最优查询结果。2.根据权利要求1所述基于语音识别的信息查询方法,其特征在于,所述解码步骤包括:Transformer和n

gram结合解码步骤:Transformer模型基于日常用语语料库和n

gram模型基于特定专用语料库结合进行解码识别,并采用prefix beam search对解码识别结果进行筛选排序,输出所述第一次文本排序M个结果。3.根据权利要求2所述基于语音识别的信息查询方法,其特征在于,所述解码步骤还包括:conformer解码步骤:基于所述二维特征值序列及所述第一次解码文本排序M个结果,采用conformer模型进行结合语音及语境的解码和识别,输出第二次文本排序N个结果,其中N为大于等于1的正整数,且N小于等于M。4.根据权利要求1所述基于语音识别的信息查询方法,其特征在于,赋值加权步骤包括:遍历步骤:将所述解码步骤输出的文本排序结果,逐一与热词字典进行热词遍历匹配;加权步骤:如果所述热词匹配成功,匹配成功的所述文本增加加权得分,最终选择得分最高的一项作为最佳输出结果。5.一种基于语音识别的信息查询系统,采用流式和非流式混合语音识别,采用如权利要求1

4中任意一项所述基于语音识别的信息查询方法,其特征在于,所述系统包括:编码模块:输入音频数据,采用transformer...

【专利技术属性】
技术研发人员:阎志远戴琳琳景辉吕占民王智为宋春晓随玉腾候亚伟衣帅张世平李贝贝苗凡李杨祝红光吴首蓉刘典
申请(专利权)人:中国铁道科学研究院集团有限公司北京经纬信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1