语音识别方法、系统、计算机设备及计算机可读存储介质技术方案

技术编号:17616408 阅读:28 留言:0更新日期:2018-04-04 07:25
本申请涉及一种语音识别方法、系统、计算机设备及存储介质。包括将语音信号特征序列输入单音素搜索网络和集内词搜索网络进行同步解码;获取集内词搜索网络解码得到的集内词输出状态分数;当集内词输出状态分数满足预设条件时,获取单音素搜索网络与集内词搜索网络同步解码的置信度;根据置信度选择对应的解码路径,输出得到语音识别结果。上述语音识别方法、系统、计算机设备及计算机可读存储介质,通过同时将语音信号特征序列输入单音素搜索网络和集内词搜索网络进行解码传递,能有效地实现集内词识别和集外词拒识别,确保识别准确率;再根据置信度选择对应的解码路径得到语音识别结果,可以进一步提高语音识别准确度。

Speech recognition method, system, computer equipment and computer readable storage medium

The application relates to a speech recognition method, a system, a computer device and a storage medium. Including the speech signal feature sequence input tone search network and set word search network synchronization and decoding; get set word search network decoding to the set of words in the output state score; when the set of words in the output state fraction meets the preset conditions, obtain the Monophone confidence search synchronous decoding network and set word search according to the confidence of the network; choose decoding path corresponding to the output of the speech recognition results. The speech recognition method, system and computer equipment and computer readable storage medium at the same time, through the voice signal sequence input tone search network and word search network decoding transmission, can effectively achieve the set out of vocabulary word recognition and reject the recognition, to ensure the accuracy of identification; according to the confidence to choose decoding path the speech recognition results, can further improve the speech recognition accuracy.

【技术实现步骤摘要】
语音识别方法、系统、计算机设备及计算机可读存储介质
本申请涉及语音识别
,特别是涉及一种语音识别方法、系统、计算机设备及计算机可读存储介质。
技术介绍
随着计算机技术的快速发展及应用,进一步实现与机器进行语音交流是人工智能和机器学习应用的一个重要方向,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。目前语音识别的应用可主要分为两个方向:一个是大词汇连续语音识别系统,它被应用于手机助理,语音听写等;另外一个是向小词汇便携型语音产品发展,如智能玩具,家电遥控等。其中第二种应用中的小词汇语音识别系统已逐渐开始在手持终端、家电等领域得到应用,因为其面向的是小词汇,所以相对于第一种系统除了噪声干扰带来的影响外还要考虑大量的集外词的干扰,即要保证集内词正确识别的同时还要拒绝集外词。而传统的小词汇语音识别系统的产品使用效果仍不尽如人意,如无法有效地实现集内命令词识别和集外词拒识别,语音识别准确度低。
技术实现思路
基于此,有必要针对上述问题,提供一种能有效地实现集内词识别和集外词拒识别,提高识别准确率的语音识别方法、系统、计算机设备及计算机可读存储介质。一种语音识别方法,包括:将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码;获取所述同步解码得到的集内词输出状态分数;当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度;根据所述置信度选择对应的解码路径,输出得到语音识别结果。在一个实施例中,所述将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码的步骤包括:将当前帧语音信号特征序列输入所述单音素搜索网络,得到第一输出状态分数;当所述第一输出状态分数大于第一预设阈值时,将下一帧语音信号特征序列分别输入所述单音素搜索网络和所述集内词搜索网络进行同步解码。在一个实施例中,所述将当前帧语音信号特征序列输入所述单音素搜索网络,得到第一输出状态分数的步骤包括:将所述当前帧语音信号特征序列输入所述单音素搜索网络;获取所述当前帧语音信号特征序列与所述单音素搜索网络基元的联合概率;将所述联合概率中的最大值作为所述第一输出状态分数。在一个实施例中,所述当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度的步骤包括:当所述集内词输出状态分数满足所述预设条件时,获取所述单音素搜索网络同步解码的第一传递分数和所述集内词搜索网络同步解码的第二传递分数;根据所述第一传递分数和所述第二传递分数,得到所述置信度。在一个实施例中,所述当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度的步骤包括:当所述集内词输出状态分数大于第二预设阈值时,通过令牌传递算法分别获取所述第一传递分数和所述第二传递分数;将所述第二传递分数与所述第一传递分数的比值作为所述置信度。在一个实施例中,所述根据所述置信度选择对应的解码路径,输出得到语音识别结果的步骤包括:获取满足置信度阈值条件的所述置信度对应的所述语音信号特征序列的帧数;根据所述帧数最大值对应的解码路径的输出,得到所述语音识别结果。在一个实施例中,所述将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码的步骤之前包括:获取语音信号;对获取的所述语音信号进行端点检测,得到所述语音信号特征序列。一种语音识别系统,包括:同步解码模块,用于将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码;状态分数获取模块,用于获取所述同步解码得到的集内词输出状态分数;置信度获取模块,用于当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度;语音识别输出模块,用于根据所述置信度选择对应的解码路径,输出得到语音识别结果。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音识别方法。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语音识别方法。上述语音识别方法、系统、计算机设备及计算机可读存储介质,将语音信号特征序列分别通过单音素搜索网络和集内词搜索网络进行同步解码传递,当集内词搜索网络解码得到的集内词输出状态分数满足预设条件时,获取单音素搜索网络与集内词搜索网络同步解码的置信度,最后根据该置信度对应的解码路径,输出得到语音识别结果。通过同时将语音信号特征序列输入单音素搜索网络和集内词搜索网络进行解码传递,能有效地实现集内词识别和集外词拒识别,确保识别准确率;再根据置信度选择对应的解码路径得到语音识别结果,可以进一步提高语音识别准确度。附图说明图1为本申请的语音识别方法一实施例的流程示意图;图2为本申请的语音识别方法一实施例中将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码的步骤流程示意图;图3为本申请的语音识别方法一实施例中将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码的步骤流程示意图;图4为本申请的语音识别方法一实施例中将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码的步骤之前的流程示意图;图5为本申请的语音识别方法一实施例中端点检测的流程示意图;图6为本申请的语音识别系统一实施例的结构示意图。具体实施方式为使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本申请,并不限定本申请的保护范围。图1为本申请的语音识别方法一实施例的流程示意图。如图1所示,本实施例的语音识别方法,包括:步骤S101,将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码。语音是声音的一种,是由人的发声器官发出,具有一定语法和意义的、搭载着特定信息的模拟信号。语音信号是模拟量,所以对语音信号的处理需要首先通过采样、量化技术将模拟的语音信号转换成数字信号,其中语音信号的采样频率需满足奈奎斯特采样定理,即采样频率必须高于待采样语音信号最高频率的两倍。此外,语音信号中包括众多不相关信息,如背景噪音,情绪等等,所以在语音识别发展过程中使用了大量的语音信号特征参数,特征参数的提取的基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质的特征参数抽出来,最后再基于该特征参数之上进行语音识别。语音信号在进行特征提取之前,都要通过端点检测模块对原始语音信号序列做一系列的预处理,如分帧、加窗、预加重和傅里叶变换等预处理。语音信号的特征参数包括时域参数,如短时平均能量、基音周期等;还包括频域参数,如短时频谱、前三个共振峰等。在语音识别方面,最常用到的语音特征就是梅尔倒谱系数(MFCC),梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,利用梅尔倒谱系数可以提取得到语音信号的特征序列。单音素搜索网络是由组成任意词的所有的单一音素作为基元组成的动态搜索网络,此网络可用于启动集内词搜索网络,并与集内词搜索网络一起解码用于识别与本文档来自技高网...
语音识别方法、系统、计算机设备及计算机可读存储介质

【技术保护点】
一种语音识别方法,其特征在于,包括:将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码;获取所述同步解码得到的集内词输出状态分数;当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度;根据所述置信度选择对应的解码路径,输出得到语音识别结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码;获取所述同步解码得到的集内词输出状态分数;当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度;根据所述置信度选择对应的解码路径,输出得到语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述将语音信号特征序列分别输入单音素搜索网络和集内词搜索网络,并进行同步解码的步骤包括:将当前帧语音信号特征序列输入所述单音素搜索网络,得到第一输出状态分数;当所述第一输出状态分数大于第一预设阈值时,将下一帧语音信号特征序列分别输入所述单音素搜索网络和所述集内词搜索网络进行同步解码。3.根据权利要求2所述的语音识别方法,其特征在于,所述将当前帧语音信号特征序列输入所述单音素搜索网络,得到第一输出状态分数的步骤包括:将所述当前帧语音信号特征序列输入所述单音素搜索网络;获取所述当前帧语音信号特征序列与所述单音素搜索网络基元的联合概率;将所述联合概率中的最大值作为所述第一输出状态分数。4.根据权利要求1所述的语音识别方法,其特征在于,所述当所述集内词输出状态分数满足预设条件时,获取所述单音素搜索网络与所述集内词搜索网络同步解码的置信度的步骤包括:当所述集内词输出状态分数满足所述预设条件时,获取所述单音素搜索网络同步解码的第一传递分数和所述集内词搜索网络同步解码的第二传递分数;根据所述第一传递分数和所述第二传递分数,得到所述置信度。5.根据权利要求4所述的语音识别方法,其特征在于,所述当所述集内词输出状态分数满足预设条件时,获取所...

【专利技术属性】
技术研发人员:秦浩然肖全之
申请(专利权)人:珠海市杰理科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1