语音解码结果处理方法、装置、设备及存储介质制造方法及图纸

技术编号:36048926 阅读:14 留言:0更新日期:2022-12-21 10:58
本申请涉及语音解码技术领域,特别是涉及到一种语音解码结果处理方法、装置、设备及存储介质,其中方法包括:获取候选命令词列表;通过CTC解码算法,得到解码矩阵,计算命令词的得分;获取得分最高的命令词,得到得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在解码矩阵上的起始位置和结束位置,计算解码长度,在起始位置和结束位置之间,找出每列得分最大的位置,每列得分最大的位置构成一个序列,记作序列B;根据序列A设定动态阈值,根据动态阈值和解码长度判定是否识别候选命令词列表中的命令词。本申请涉及的方法可以解决语音解码结果处理方法应用在嵌入式设备运算资源受限,导致识别不准确的技术问题。导致识别不准确的技术问题。导致识别不准确的技术问题。

【技术实现步骤摘要】
语音解码结果处理方法、装置、设备及存储介质


[0001]本申请涉及语音解码
,特别是涉及到一种语音解码结果处理方法、装置、设备及存储介质。

技术介绍

[0002]解码是语音识别算法的重要部分,解码算法直接影响识别准确率。命令词识别属于语音识别的一个分支,广泛应用于智能家居领域。命令词识别的解码算法,由于其应用一般在嵌入式设备,资源受限,故其解码算法不同于一般的利用声学模型+语言模型的解码策略,需要结合资源限制精心设计。
[0003]因此,现有的语音解码结果处理方法应用在嵌入式设备运算资源受限,导致识别不准确的技术问题。

技术实现思路

[0004]本申请的主要目的为提供一种语音解码结果处理方法、装置、设备及存储介质,旨在解决现有技术中语音解码结果处理方法应用在嵌入式设备运算资源受限,导致识别不准确的技术问题。
[0005]为了实现上述专利技术目的,本申请提出一种语音解码结果处理方法,所述方法包括:获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。
[0006]进一步地,所述获取得分最高的命令词的步骤之后,包括:判断所述得分最高的命令词的得分是否大于第一得分阈值;若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
[0007]进一步地,所述获取得分最高的命令词的步骤之后,包括:判断所述得分最高的命令词的得分是否小于第二得分阈值,其中,所述第二得分阈值小于所述第一得分阈值;若所述得分最高的命令词的得分小于所述第二得分阈值,则判定不识别所述候选命令词列表中的命令词。
[0008]进一步地,所述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长
度判定是否识别所述候选命令词列表中的命令词的步骤,包括:若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;根据所述序列A的长度设定第一长度阈值;判断所述编辑距离是否大于所述第一长度阈值;若所述编辑距离大于所述第一长度阈值,则判定不识别所述候选命令词列表中的命令词。
[0009]进一步地,所述判断所述编辑距离是否大于所述第一长度阈值的步骤之后,包括:若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;若所述解码长度大于所述第二长度阈值,且所述得分最高的命令词的得分大于第三得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第三得分阈值大于所述第二得分阈值,且小于所述第一得分阈值;若所述解码长度小于所述第二长度阈值,且所述得分最高的命令词的得分大于第四得分阈值,则判定识别所述候选命令词列表中的命令词,其中,所述第四得分阈值大于所述第二得分阈值,且小于所述第三得分阈值和所述第一得分阈值。
[0010]进一步地,所述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词的步骤,包括:若所述解码长度或所述编辑距离均不满足与所述第一长度阈值和所述第二长度阈值的大小关系,同时所述得分最高的命令词的得分均不满足与所述第四得分阈值、所述第二得分阈值、所述第三得分阈值和所述第一得分阈值的大小关系,则判定不识别所述候选命令词列表中的命令词。
[0011]本申请还提供了一种语音解码结果处理装置,所述装置包括:命令词获取模块,用于获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;命令词得分计算模块,用于通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;最高得分命令词处理模块,用于获取记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置,得到序列A;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;判断模块,用于根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。
[0012]进一步地,所述语音解码结果处理装置,所述装置包括:第一判断子模块,用于判断所述得分最高的命令词的得分是否大于第一得分阈值;若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。
[0013]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算
机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0014]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
[0015]本申请提供的一种语音解码结果处理方法,在候选命令词列表中,通过CTC解码算法,得到解码矩阵,计算出每个命令词的得分,选出得分最高的命令词,计算该命令词的解码长度。根据命令词的长度,可自适应的动态调整阈值,针对不同的命令词能做出适配,提升了识别准确率,同时可降低误识别率。并且涉及的解码算法运算简单,功耗低,耗时少。
附图说明
[0016]图1 为本申请一实施例的语音解码结果处理方法的流程示意图;图2 为本申请一实施例的语音解码结果处理装置的结构示意框图;图3 为本申请一实施例的计算机设备的结构示意框图。
[0017]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0019]本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
...

【技术保护点】

【技术特征摘要】
1.一种语音解码结果处理方法,其特征在于,所述方法包括:获取候选命令词列表,所述候选命令词列表包括一个或多个命令词;通过CTC解码算法,得到解码矩阵,计算出所述命令词的得分;获取得分最高的命令词,得到所述得分最高的命令词对应的音素序列,记作序列A,并记录得分最高的命令词在所述解码矩阵上的起始位置和结束位置;根据所述起始位置和所述结束位置,计算出解码长度,并在所述起始位置和所述结束位置之间,找出每列得分最大的位置,所述每列得分最大的位置构成一个序列,记作序列B;根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词。2.根据权利要求1所述的语音解码结果处理方法,其特征在于,所述获取得分最高的命令词的步骤之后,包括:判断所述得分最高的命令词的得分是否大于第一得分阈值;若所述得分最高的命令词的得分大于所述第一得分阈值,则判定识别所述候选命令词列表中的命令词。3.根据权利要求2所述的语音解码结果处理方法,其特征在于,所述获取得分最高的命令词的步骤之后,包括:判断所述得分最高的命令词的得分是否小于第二得分阈值,其中,所述第二得分阈值小于所述第一得分阈值;若所述得分最高的命令词的得分小于所述第二得分阈值,则判定不识别所述候选命令词列表中的命令词。4.根据权利要求3所述的语音解码结果处理方法,其特征在于,所述根据所述序列A设定动态阈值,并根据所述动态阈值和所述解码长度判定是否识别所述候选命令词列表中的命令词的步骤,包括:若所述得分最高的命令词的得分小于所述第一得分阈值,且大于所述第二得分阈值,利用CTC准则,将所述序列B进行压缩,得到序列C;通过动态规划的算法,计算所述序列A和所述序列C的编辑距离;根据所述序列A的长度设定第一长度阈值;判断所述编辑距离是否大于所述第一长度阈值;若所述编辑距离大于所述第一长度阈值,则判定不识别所述候选命令词列表中的命令词。5.根据权利要求4所述的语音解码结果处理方法,其特征在于,所述判断所述编辑距离是否大于所述第一长度阈值的步骤之后,包括:若所述编辑距离小于所述第一长度阈值,则根据所述序列A的长度设定第二长度阈值,其中,所述第二长度阈值大于所述第一长度阈值;若所述解码长度大于所述第二长度阈值,且所述得分最高的...

【专利技术属性】
技术研发人员:李杰王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1