解码网系统、语音识别方法、装置、设备及介质制造方法及图纸

技术编号:34446229 阅读:15 留言:0更新日期:2022-08-06 16:41
本发明专利技术提供了一种解码网系统、语音识别方法、装置、设备及介质,所述解码网包括:第一方向网单元和第二方向网单元;所述第一方向网单元包括N条第一关键词传输通道,所述第一关键词传输通道上的音素序列包括关键词的第一音素序列;所述第二方向网单元包括M条第二关键词传输通道,所述第二关键词传输通道上的音素序列包括所述关键词的第二音素序列;所述第二零入度节点至少连接一个所述第一零出度节点。本发明专利技术所提供的解码网系统可以仅用来对语音中的关键词进行识别和匹配,以在保证关键词识别效率的同时减小信息容量及占用内存,并且还因为不需要回溯解码过程,所以提高了语音识别中关键词识别的效率。中关键词识别的效率。中关键词识别的效率。

【技术实现步骤摘要】
解码网系统、语音识别方法、装置、设备及介质


[0001]本专利技术涉及信息处理
,尤其涉及一种解码网系统、语音识别方法、装置、设备及介质。

技术介绍

[0002]语音识别技术也称为自动语音识别(automaticspeechrecognition,asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,包括按键、二进制编码或者字符序列,从而实现人机交互。语音识别技术在现代生活中具有广泛的应用场景,可应用于车载导航、智能家居、语音拨号、同声传译等场景中。解码器作为语音识别系统的核心,基于解码器的语音解码过程在整个语音识别过程中发挥着重要作用,直接影响着识别结果的准确性。
[0003]通常采用加权有限状态机(weighted finaite

state transducer,WFST)作为解码器进行语音识别,但是这种方法对于关键词解码显得臃肿低效。目前,对于庞大的解码网络规模会进行缩小处理以便于关键词解码,但是会带来一系列负面影响,例如关键词识别效率低、准确性不高。
[0004]因此,本专利技术提出一种解码网系统、语音识别方法、装置、设备及介质来提高语音识别中关键词识别的效率及准确性。

技术实现思路

[0005]本专利技术提出了一种解码网系统、语音识别方法、装置、设备及介质来提高语音识别中关键词识别的效率及准确性。
[0006]第一方面,本专利技术提供一种解码网系统,包括:第一方向网单元和第二方向网单元;所述第一方向网单元包括N条第一关键词传输通道,所述第一关键词传输通道上的音素序列包括关键词的第一音素序列,且N个所述第一关键词传输通道具有相同的第一零入度节点和不同的第一零出度节点,所述N为正整数;所述第二方向网单元包括M条第二关键词传输通道,所述第二关键词传输通道上的音素序列包括所述关键词的第二音素序列,且M个所述第二关键词传输通道具有不同的第二零入度节点和相同的第二零出度节点,所述M为正整数;所述第二零入度节点至少连接一个所述第一零出度节点。
[0007]其有益效果在于:本专利技术通过所述第一关键词传输通道上的音素序列包括关键词的第一音素序列,且所述第二关键词传输通道上的音素序列包括所述关键词的第二音素序列,使得所述解码网系统可以仅用来对语音中的关键词进行识别和匹配,以在保证关键词识别效率的同时减小解码网系统的信息容量及占用内存。同时可通过不同的关键词传输通道进行识别,可以提高对语音中包裹的关键词识别的准确性,并且又因为在不同的关键词传输通道分别对应不同的关键词音素序列时,每条传输通道上的节点的物理意义明确,可以对所述解码网进行针对性优化;还因为本解码网系统系统不需要回溯解码过程,所以提高了语音识别中关键词识别的效率。
[0008]可选地,所述解码网系统还包括L个桥接,所述桥接上设有关键词标识,所述第二零入度节点通过所述桥接连接所述第一零入度节点,所述L为正整数。其有益效果在于:通过所述桥接的标识,可以更加准确地对所述第二零出度节点和所述第一零入度节点进行匹配连接。
[0009]进一步可选地,所述第一方向网单元的线路结构为有向无环图,所述第二方向网单元的线路结构为有向无环图,且所述第一方向网单元和所述第二方向网单元的方向相反。其有益效果在于:通过所述第一方向网单元和所述第二方向网单元的线路结构为有向无环图,所以在所述第一方向网单元和所述第二方向网单元的语音识别的过程中不会出现回溯解码的现象,可提高语音识别中关键词识别的效率。
[0010]又进一步可选地,所述第一关键词传输通道的线路结构为直线形路径或者树形路径;所述第二关键词传输通道为直线形路径或者树形路径。其有益效果在于:可以根据不同的情况建立不同的解码网系统,以适应实际需求。
[0011]再进一步可选地,所述第一音素序列与所述第二音素序列之和,包括所述桥接上所标识的所述关键词的全部音素序列。其有益效果在于:可将同一个关键词中的全部音素序列分开识别,在保证识别效率的同时缩小解码网系统的规格。
[0012]可选地,所述解码网系统连接有音素序列模块,所述音素序列模块包括由隐马尔可夫模型、高斯混合模型或深度神经网络模型构成的声学模型,以获取需被所述解码网系统识别的音素序列。
[0013]进一步可选地,所述关键词的全部音素序列包括所述关键词的双音素序列或三因素序列中的至少一种。
[0014]第二方面,本专利技术提供一种语音识别的方法,包括:获取语音以及如上述第一方面中任一项所述的解码网系统;所述解码网系统获取所述语音的全部音素序列;所述解码网系统将所述全部音素序列与所述第一音素序列和所述第二音素序列进行匹配以实现语音识别。
[0015]其有益效果在于:通过将语音的全部音素序列与所述第一音素序列和所述第二音素序列进行匹配以实现语音识别,在保证所述解码网系统识别效率的同时缩小解码网系统的规格。
[0016]第三方面,本专利技术提供一种语音识别装置,所述装置包括执行上述第二方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
[0017]第四方面,本申请实施例提供一种电子设备,包括处理器和存储器。其中,存储器用于存储一个或多个计算机程序;当存储器存储的一个或多个计算机程序被处理器执行时,使得该电子设备能够实现上述第二方面的任意一种可能的设计的方法。
[0018]关于上述第三方面至第四方面的有益效果可以参见上述第一方面或第二方面中的描述。
附图说明
[0019]图1为本专利技术提供的一种解码网系统实施例的示意图;
[0020]图2为本专利技术提供的又一种解码网系统实施例的示意图;
[0021]图3为本申请实施例提供的一种语音识别的方法的流程图;
[0022]图4为本申请实施例提供的一种语音识别装置示意图;
[0023]图5为本申请实施例提供的一种电子设备示意图。
具体实施方式
[0024]在详细介绍本专利技术实施例之前,以下先对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
[0025]1、音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。
[0026]2、加权有限状态机(weighted finaite

state transducer,WFST)用于大规模的语音识别,其状态的变化可用输入符号和输出符号标记。
[0027]3、令牌(token)是记录解码过程中某一时刻某个状态上的得分和信息的数据结构。从加权有限状态机的初始状态开始,令牌沿着具有方向的边进行转移,在转移过程中状态的变化可通过输入符号的变化体现。在从初始状态向终止状态的状态传递过程中,令牌中记录一系列的状态和边组成的路径。
[0028]4、声学模型,为对声学、语言学、环境的变量、说话人性别、口音等的差异化表示。声学模型包括基于隐马尔可夫模型(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解码网系统,其特征在于,包括:第一方向网单元和第二方向网单元;所述第一方向网单元包括N条第一关键词传输通道,所述第一关键词传输通道上的音素序列包括关键词的第一音素序列,且N个所述第一关键词传输通道具有相同的第一零入度节点和不同的第一零出度节点,所述N为正整数;所述第二方向网单元包括M条第二关键词传输通道,所述第二关键词传输通道上的音素序列包括所述关键词的第二音素序列,且M个所述第二关键词传输通道具有不同的第二零入度节点和相同的第二零出度节点,所述M为正整数;所述第二零入度节点至少连接一个所述第一零出度节点。2.根据权利要求1所述的解码网系统,其特征在于,还包括L个桥接,所述桥接上设有关键词标识,所述第二零入度节点通过所述桥接连接所述第一零入度节点,所述L为正整数。3.根据权利要求2所述的解码网系统,其特征在于,所述第一方向网单元的线路结构为有向无环图,所述第二方向网单元的线路结构为有向无环图,且所述第一方向网单元和所述第二方向网单元的方向相反。4.根据权利要求3所述的解码网系统,其特征在于,所述第一关键词传输通道的线路结构为直线形路径或者树形路径;所述第二关键词传输通道为直线形路径或者树形路径。5.根据权利要求4所述的解码网系统,其特征在于,所述第一音素序列与所述第二音素序列之和,包括所述桥接上所标识的所述关键词的全部音素序列。6.根据权利要求5所述的解码网系统,其特征在于,所述解码网系统连接有音素序列模块,所述音素序列模块...

【专利技术属性】
技术研发人员:周智鄢戈仇健乐于欣蒋寿美
申请(专利权)人:时擎智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1