当前位置: 首页 > 专利查询>中国铁道科学研究院集团有限公司北京经纬信息技术有限公司专利>正文

一种基于语音识别的信息查询方法及系统、设备和存储介质技术方案

技术编号：30906397 阅读：20 留言：0更新日期：2021-11-22 23:52

本申请公开了一种基于语音识别的信息查询方法、系统、计算机设备和计算机可读存储介质。其方法技术方案包括步骤：编码步骤用于输入音频数据，采用transformer编码器进行特征值提取，输出二维特征值序列；解码步骤：基于二维特征值序列，采用transformer和n

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音识别的信息查询方法及系统、设备和存储介质

[0001]本申请涉及信息查询领域，特别是涉及一种基于语音识别的信息查询方法、系统、计算机设备和计算机可读存储介质。

技术介绍

[0002]当前，随着语音识别技术的发展，可以发现语音识别用户接受程度高、操作方便，不涉及用户隐私问题，推广语音识别相关应用更为方便。
[0003]从场景上，语音识别可以分为流式语音识别和非流式语音识别。非流式语音识别(离线识别)是指模型在用户说完一句话或一段话之后再进行识别，而流式语音识别则是指模型在用户还在说话的时候便同步进行语音识别。流式语音识别因为其延时低的特点，在工业界中有着广泛的应用，例如听写转录等。
[0004]Transformer模型在自然语言领域被提出后，目前已经扩展到了计算机视觉、语音等诸多领域。Transformer模型在流式的语音识别场景下有着更好的准确率。
[0005]N
‑
Gram是大词汇连续语音识别中常用的一种语言模型，N
‑
Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。
[0006]目前，现有技术中采用的流式与非流式语音识别统一模型通常为共享的Encoder、CTC解码器、Attention解码器，共享Encoder包含多层transformer或者conformer，CTC解码器为一个全连接层和一个softmax层，Attention解码器包含多层t...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的信息查询方法，采用流式和非流式混合语音识别，其特征在于，所述方法包括：编码步骤：输入音频数据，采用transformer编码器进行特征值提取，输出二维特征值序列；解码步骤：基于所述二维特征值序列，采用transformer和n
‑
gram结合的解码器进行流式语音解码及识别后，筛选输出第一次文本排序M个结果后，基于所述二维特征值序列及所述第一次匹配文本排序M个结果，采用conformer模型进行非流式语音解码及识别，输出第二次文本排序N个结果，其中N和M为大于等于1的正整数，且N小于等于M；赋值加权步骤：在所述解码步骤输出的文本排序结果中，基于热词词典进行赋值加权，输出最优查询结果。2.根据权利要求1所述基于语音识别的信息查询方法，其特征在于，所述解码步骤包括：Transformer和n
‑
gram结合解码步骤：Transformer模型基于日常用语语料库和n
‑
gram模型基于特定专用语料库结合进行解码识别，并采用prefix beam search对解码识别结果进行筛选排序，输出所述第一次文本排序M个结果。3.根据权利要求2所述基于语音识别的信息查询方法，其特征在于，所述解码步骤还包括：conformer解码步骤：基于所述二维特征值序列及所述第一次解码文本排序M个结果，采用conformer模型进行结合语音及语境的解码和识别，输出第二次文本排序N个结果，其中N为大于等于1的正整数，且N小于等于M。4.根据权利要求1所述基于语音识别的信息查询方法，其特征在于，赋值加权步骤包括：遍历步骤：将所述解码步骤输出的文本排序结果，逐一与热词字典进行热词遍历匹配；加权步骤：如果所述热词匹配成功，匹配成功的所述文本增加加权得分，最终选择得分最高的一项作为最佳输出结果。5.一种基于语音识别的信息查询系统，采用流式和非流式混合语音识别，采用如权利要求1
‑
4中任意一项所述基于语音识别的信息查询方法，其特征在于，所述系统包括：编码模块：输入音频数据，采用transformer...

【专利技术属性】
技术研发人员：阎志远，戴琳琳，景辉，吕占民，王智为，宋春晓，随玉腾，候亚伟，衣帅，张世平，李贝贝，苗凡，李杨，祝红光，吴首蓉，刘典，
申请(专利权)人：中国铁道科学研究院集团有限公司北京经纬信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人