自适应解码方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34247067 阅读:13 留言:0更新日期:2022-07-24 10:38
本发明专利技术提供的一种自适应解码方法、装置、计算机设备和存储介质,包括:获取语音数据,对所述语音数据进行预处理得到解码矩阵;根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果。根据自适应步长策略对解码矩阵进行滑窗处理,使得每次滑窗的步长都是变化,避免滑窗重叠过大或重叠过小的问题出现,减少解码次数和处理时间的同时降低语音信息丢失的可能性。可能性。可能性。

Adaptive decoding method, device, computer equipment and storage medium

【技术实现步骤摘要】
自适应解码方法、装置、计算机设备和存储介质


[0001]本专利技术涉及到语音识别
,特别是涉及到一种自适应解码方法、装置、计算机设备和存储介质。

技术介绍

[0002]唤醒词、命令词识别属于语音识别领域,广泛应用于智能家居、智能终端等场景。现有唤醒词、命令词模型在应用时,实时检测用户的语音,当检测到特定词汇时,即做出反馈。如何在流式语音数据中精准检测出特定词汇,除了跟算法的性能相关外,流式处理的算法也至关重要。比如常见的流式处理会选取固定的窗长,然后按照一定的步长进行滑动。按照一定的步长进行滑动的处理方式时,如果滑窗重叠过大,导致解码次数增多,增加处理时间;如果滑窗重叠过小时,又存在语音信息丢失的可能。

技术实现思路

[0003]本专利技术的主要目的为提供一种自适应解码方法、装置、计算机设备和存储介质,能够解决现有技术中按照一定的步长进行滑动的处理方式时,导致滑窗重叠过大或滑窗重叠过小的技术问题。
[0004]本专利技术提供的一种自适应解码方法,包括:获取语音数据,对所述语音数据进行预处理得到解码矩阵;根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果。
[0005]进一步,所述获取语音数据,对所述语音数据进行预处理得到解码矩阵的步骤,包括:将所述语音数据输入神经网络模型,获得初始解码矩阵;获取所述初始解码矩阵中blank标签对应的概率值;若所述概率值大于预设阈值,移除所述概率值对应的特征数据帧,得到精简后的解码矩阵。
[0006]进一步,所述若所述概率值大于预设阈值,移除所述概率值对应的特征数据帧,得到精简后的解码矩阵的步骤之后,包括:将所述解码矩阵缓存至缓存区域;当所述缓存区域的缓存时间满足时间阈值时,复制所述缓存区域的解码矩阵到处理区域进行滑窗处理。
[0007]进一步,所述根据自适应步长策略对所述解码矩阵进行滑窗处理的步骤之前,包括:若所述解码矩阵的长度小于预设处理长度,接收下一段解码矩阵并将两者拼接;若拼接后的解码矩阵的长度大于预设处理长度,进行滑窗处理。
[0008]进一步,所述根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现
关键词的置信度满足预设阈值时输出解码结果的步骤,包括:滑窗在预设步长范围内对所述解码矩阵进行搜索,判断是否满足以下条件之一:条件一、所述预设步长范围内的关键词开头的音素对应的概率值是否大于预设阈值,条件二、所述预设步长范围内的解码矩阵每列的概率值最大是否为关键词开头的音素;若满足所述条件一,所述滑窗滑动至第一个出现所述概率值大于预设阈值的位置,判断此时滑窗内出现关键词的置信度是否满足预设阈值,若是,输出解码结果;若满足所述条件二,所述滑窗滑动至所述概率值为关键词开头音素的第一个出现位置,判断当滑窗内出现关键词的置信度是否满足预设阈值,若是,输出解码结果。
[0009]进一步,所述根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果的步骤之后,包括:若滑窗内出现关键词的置信度不满足预设阈值,判断所述解码矩阵的末端在预设长度范围内是否获取到关键词开头的音素的概率值;若否,接收下一段解码矩阵;若是,判断是否满足以下条件之一:条件一、所述概率值是否大于预设阈值,条件二、所述概率值是否为所述预设长度范围内的解码矩阵的最大值;若否,接收下一段解码矩阵;若满足所述条件一,从第一个出现所述概率值大于预设阈值的位置处,截取当前位置至末端的一段解码矩阵作为第一解码矩阵,将第一解码矩阵与下一段待处理的解码矩阵进行拼接得到第二解码矩阵,若满足所述条件二,从所述概率值为最大值的位置处,截取当前位置至末端的一段解码矩阵作为第一解码矩阵,将所述第一解码矩阵与下一段待处理的解码矩阵进行拼接得到第二解码矩阵。
[0010]本专利技术还提供一种自适应解码装置,包括:获取模块,用于获取语音数据,对所述语音数据进行预处理得到解码矩阵;处理模块,用于根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果。
[0011]进一步,所述获取模块包括:获取子模块一,用于将所述语音数据输入神经网络模型,获得初始解码矩阵;获取子模块二,用于获取所述初始解码矩阵中blank标签对应的概率值;精简子模块,用于若所述概率值大于预设阈值,移除所述概率值对应的特征数据帧,得到精简后的解码矩阵。
[0012]本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
[0013]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
[0014]相对于现有技术,本专利技术提供了一种自适应解码方法、装置、计算机设备和存储介质,根据自适应步长策略对解码矩阵进行滑窗处理,使得每次滑窗的步长都是变化,避免滑窗重叠过大或重叠过小的问题出现,减少解码次数和处理时间的同时降低语音信息丢失的可能性。
附图说明
[0015]图1为本申请一实施例中的自适应解码方法的步骤示意图;图2为本申请另一实施例中的自适应解码方法的步骤示意图;图3为本申请一实施例中的自适应解码装置的结构框图;图4为本申请计算机设备的一实施例结构示意框图。
[0016]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0017]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]参照图1,本专利技术实施例的一种自适应解码方法,包括S1、获取语音数据,对所述语音数据进行预处理得到解码矩阵;S2、根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果。
[0020]上述步骤S1中,上述语音数据可以是用户通过麦克风输入至该终端设备的语音数据;或者,可以是用户从互联网上下载的语音数据;或者,还可以是该终端设备本地存储的音视频文件中的语音数据。本申请对上述语音数据的来源不作限定。
[0021]上述步骤S2中,一般来说,经过神经网络预测后,输出的解码矩阵长度是固定的,对解码矩阵经过预处理后,其长度是变化的。比如对1.6s的语音数据(10ms一帧,为160帧),解码矩阵长度为40经过(stride =4 的神经网络后的输出),但对解码矩阵预处理后,其长度是变化的,比如在0~40之间。比如常见的流式处理会选取固定的窗长,然后按照一定的步长进行滑动。这样的处理方式存在如下缺点:一是设置了固定的窗口长度,从而限定了检测的范围。比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应解码方法,其特征在于,包括:获取语音数据,对所述语音数据进行预处理得到解码矩阵;根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果。2.根据权利要求1所述自适应解码方法,其特征在于,所述获取语音数据,对所述语音数据进行预处理得到解码矩阵的步骤,包括:将所述语音数据输入神经网络模型,获得初始解码矩阵;获取所述初始解码矩阵中blank标签对应的概率值;若所述概率值大于预设阈值,移除所述概率值对应的特征数据帧,得到精简后的解码矩阵。3.根据权利要求2所述自适应解码方法,其特征在于,所述若所述概率值大于预设阈值,移除所述概率值对应的特征数据帧,得到精简后的解码矩阵的步骤之后,包括:将所述解码矩阵缓存至缓存区域;当所述缓存区域的缓存时间满足时间阈值时,复制所述缓存区域的解码矩阵到处理区域进行滑窗处理。4.根据权利要求1所述自适应解码方法,其特征在于,所述根据自适应步长策略对所述解码矩阵进行滑窗处理的步骤之前,包括:若所述解码矩阵的长度小于预设处理长度,接收下一段解码矩阵并将两者拼接;若拼接后的解码矩阵的长度大于预设处理长度,进行滑窗处理。5.根据权利要求1所述自适应解码方法,其特征在于,所述根据自适应步长策略对所述解码矩阵进行滑窗处理,当滑窗内出现关键词的置信度满足预设阈值时输出解码结果的步骤,包括:滑窗在预设步长范围内对所述解码矩阵进行搜索,判断是否满足以下条件之一:条件一、所述预设步长范围内的关键词开头的音素对应的概率值是否大于预设阈值,条件二、所述预设步长范围内的解码矩阵每列的概率值最大是否为关键词开头的音素;若满足所述条件一,所述滑窗滑动至第一个出现所述概率值大于预设阈值的位置,判断此时滑窗内出现关键词的置信度是否满足预设阈值,若是,输出解码结果;若满足所述条件二,所述滑窗滑动至所述概率值为关键词开头音素的第一个出现位置,判断当滑窗内出现关键词的置信度是否满足预设阈值,若是,...

【专利技术属性】
技术研发人员:李杰王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1