基于解码器的语音唤醒方法及其相关设备技术

技术编号:34480609 阅读:16 留言:0更新日期:2022-08-10 08:56
本申请实施例属于人工智能领域,应用于智慧社区领域中,涉及一种基于解码器的语音唤醒方法及其相关设备,包括接收初始语音唤醒模型,初始语音唤醒模型的输出层包括静音pdf节点、无用pdf节点和唤醒词pdf节点,静音pdf节点对应静音对应的pdf,唤醒词pdf节点对应唤醒词对应的pdf,无用pdf节点对应除唤醒词对应的pdf和静音对应的pdf以外的pdf;对语音训练数据集进行对齐操作,获得语音帧训练数据集,并训练初始语音唤醒模型,获得目标语音唤醒模型;将待识别语音输入目标语音唤醒模型,获得目标pdf概率;将目标pdf概率输入解码器中,获得解码结果;若解码结果为唤醒词,执行唤醒操作。目标语音唤醒模型可存储于区块链中。本申请提高了语音唤醒的准确率。请提高了语音唤醒的准确率。请提高了语音唤醒的准确率。

【技术实现步骤摘要】
基于解码器的语音唤醒方法及其相关设备


[0001]本申请涉及人工智能
,尤其涉及基于解码器的语音唤醒方法及其相关设备。

技术介绍

[0002]语音唤醒系统已经广泛应用在很多智能设备上,如智能音箱。它是语音交互的最前端。与其他更复杂的语音交互功能不同,语音唤醒会一直在后台执行,实时检测用户是否说了唤醒词。只有当检测到用户说了唤醒词之后,才会触发后续更复杂的语音交互逻辑。
[0003]现有的语音唤醒系统,在确定了唤醒词之后,一般都需要大量的唤醒词语音用于模型训练。这就带来了很大的不便,因为这种特定词的录音数据是很难得的,在普通的语音数据集当中,符合要求的语音数据占比很少。尤其是如果唤醒词是自己造的词,就更难得。这样就不得不专门录制唤醒词,这样一方面成本很高,另一方面专门录制的数据集质量也不如真实场景采集的数据,比如,很难覆盖复杂的噪声场景,难以保证说话人的多样性等。导致模型性能受录音质量的影响很大。而且一旦需要更换唤醒词,就需要重录新的唤醒词,即使有很多连续语音识别的训练数据也无法利用。
[0004]此外,现有的语音唤醒系统一般是在神经网络模型后直接连接一个置信度计算模块,以此来判断是否唤醒。这种方式也有缺陷,难以分辨唤醒词颠倒顺序的情况,比如:唤醒词是“你好小海”,但用户说“小海你好”也会唤醒,基于上述两种情况,导致了现有的语音唤醒系统的准确率不高。

技术实现思路

[0005]本申请实施例的目的在于提出一种基于解码器的语音唤醒方法、装置、计算机设备及存储介质,提高了语音唤醒的准确率
[0006]为了解决上述技术问题,本申请实施例提供一种基于解码器的语音唤醒方法,采用了如下所述的技术方案:
[0007]一种基于解码器的语音唤醒方法,包括下述步骤:
[0008]接收语音训练数据集和初始语音唤醒模型,其中,所述初始语音唤醒模型的输出层包括静音pdf节点、无用pdf节点和多个唤醒词pdf节点,所述静音pdf节点对应语音中静音对应的pdf,所述唤醒词pdf节点对应语音中唤醒词对应的pdf,所述无用pdf节点对应语音中除唤醒词对应的pdf和静音对应的pdf以外的pdf;
[0009]对所述语音训练数据集进行对齐操作,获得语音帧训练数据集,通过所述语音帧训练数据集和所述语音训练数据集训练所述初始语音唤醒模型,获得目标语音唤醒模型;
[0010]接收待识别语音,将所述待识别语音逐帧输入至所述目标语音唤醒模型中,获得输出的每帧对应的目标pdf概率;
[0011]将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果;
[0012]判断所述解码结果是否为唤醒词,若所述解码结果为唤醒词,则执行唤醒操作。
[0013]进一步的,在所述将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果的步骤之前,还包括:
[0014]通过预设语法构建目标解码图;
[0015]所述将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果的步骤包括:
[0016]将各所述目标pdf概率输入至预训练的解码器中,所述解码器在所述目标解码图中寻找所述目标pdf概率序列的最优路径,获得输出的解码结果。
[0017]进一步的,所述通过预设语法构建目标解码图的步骤包括:
[0018]通过预设的语法构造G.fst图,其中,所述G.fst图有且仅有一条有效路径,所述有效路径对应一个唤醒词;
[0019]对所述G.fst图和预设的L.fst图进行多次组合操作,获得唤醒HCLG.fst图;
[0020]在所述唤醒HCLG.fst图中通过并联的方式添加一条输出为空的边,以吸收静音和无用发音,获得所述目标解码图。
[0021]进一步的,所述连续语音识别模型的输出层包括多个pdf节点,所述基于预训练的连续语音识别模型对所述语音训练数据集进行对齐操作,获得语音帧训练数据集的步骤包括:
[0022]基于预训练的连续语音识别模型对所述语音训练数据集进行帧级别的标注,获得标注数据集;
[0023]根据预设的映射关系表,将所述标注数据集的训练标签替换为对应的目标标签,获得所述语音帧训练数据集,其中,所述映射关系表包括所述连续语音识别模型的pdf节点的名称和所述目标标签之间的对应关系,所述目标标签为所述静音pdf节点的名称、所述无用pdf节点的名称和所述唤醒词pdf节点的名称。
[0024]进一步的,所述判断所述解码结果是否为唤醒词的步骤包括:
[0025]判断所述解码结果是否为空,若所述解码结果不为空,则确定所述解码结果为唤醒词。
[0026]进一步的,所述通过所述语音帧训练数据集和所述语音训练数据集训练所述初始语音唤醒模型,获得目标语音唤醒模型的步骤包括:
[0027]将所述语音帧训练数据集的标注数据作为所述语音训练数据集的对应数据的训练标签,获得目标训练数据集,基于所述目标训练数据集训练所述初始语音唤醒模型,获得所述目标语音唤醒模型。
[0028]进一步的,所述将将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果的步骤包括:
[0029]将各所述目标pdf概率输入至预训练的基于加权有限状态转换器的静态解码器中,获得输出的解码结果。
[0030]为了解决上述技术问题,本申请实施例还提供一种基于解码器的语音唤醒装置,采用了如下所述的技术方案:
[0031]一种基于解码器的语音唤醒装置,包括:
[0032]接收模块,用于接收语音训练数据集和初始语音唤醒模型,其中,所述初始语音唤醒模型的输出层包括静音pdf节点、无用pdf节点和多个唤醒词pdf节点,所述静音pdf节点
对应语音中静音对应的pdf,所述唤醒词pdf节点对应语音中唤醒词对应的pdf,所述无用pdf节点对应语音中除唤醒词对应的pdf和静音对应的pdf以外的pdf;
[0033]训练模块,用于对所述语音训练数据集进行对齐操作,获得语音帧训练数据集,通过所述语音帧训练数据集和所述语音训练数据集训练所述初始语音唤醒模型,获得目标语音唤醒模型;
[0034]输入模块,用于接收待识别语音,将所述待识别语音逐帧输入至所述目标语音唤醒模型中,获得输出的每帧对应的目标pdf概率;
[0035]输出模块,用于将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果;
[0036]判断模块,用于判断所述解码结果是否为唤醒词,若所述解码结果为唤醒词,则执行唤醒操作,若所述解码结果不为唤醒词,则确定不唤醒。
[0037]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0038]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的基于解码器的语音唤醒方法的步骤。
[0039]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于解码器的语音唤醒方法,其特征在于,包括下述步骤:接收语音训练数据集和初始语音唤醒模型,其中,所述初始语音唤醒模型的输出层包括静音pdf节点、无用pdf节点和多个唤醒词pdf节点,所述静音pdf节点对应语音中静音对应的pdf,所述唤醒词pdf节点对应语音中唤醒词对应的pdf,所述无用pdf节点对应语音中除唤醒词对应的pdf和静音对应的pdf以外的pdf;对所述语音训练数据集进行对齐操作,获得语音帧训练数据集,通过所述语音帧训练数据集和所述语音训练数据集训练所述初始语音唤醒模型,获得目标语音唤醒模型;接收待识别语音,将所述待识别语音逐帧输入至所述目标语音唤醒模型中,获得输出的每帧对应的目标pdf概率;将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果;判断所述解码结果是否为唤醒词,若所述解码结果为唤醒词,则执行唤醒操作。2.根据权利要求1所述的基于解码器的语音唤醒方法,其特征在于,在所述将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果的步骤之前,还包括:通过预设语法构建目标解码图;所述将各所述目标pdf概率输入至预训练的解码器中,获得输出的解码结果的步骤包括:将各所述目标pdf概率输入至预训练的解码器中,所述解码器在所述目标解码图中寻找所述目标pdf概率序列的最优路径,获得输出的解码结果。3.根据权利要求2所述的基于解码器的语音唤醒方法,其特征在于,所述通过预设语法构建目标解码图的步骤包括:通过预设的语法构造G.fst图,其中,所述G.fst图有且仅有一条有效路径,所述有效路径对应一个唤醒词;对所述G.fst图和预设的L.fst图进行多次组合操作,获得唤醒HCLG.fst图;在所述唤醒HCLG.fst图中通过并联的方式添加一条输出为空的边,以吸收静音和无用发音,获得所述目标解码图。4.根据权利要求1所述的基于解码器的语音唤醒方法,其特征在于,所述连续语音识别模型的输出层包括多个pdf节点,所述基于预训练的连续语音识别模型对所述语音训练数据集进行对齐操作,获得语音帧训练数据集的步骤包括:基于预训练的连续语音识别模型对所述语音训练数据集进行帧级别的标注,获得标注数据集;根据预设的映射关系表,将所述标注数据集的训练标签替换为对应的目标标签,获得所述语音帧训练数据集,其中,所述映射关系表包括所述连续语音识别模型的pdf节点的名称和所述目标标签之间的对应关系,所述目标标签为所述静音pdf节点的名称、...

【专利技术属性】
技术研发人员:赵梦原王健宗张之勇
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1