基于解码器的语音唤醒方法及其相关设备技术

技术编号：34480609 阅读：26 留言：0更新日期：2022-08-10 08:56

本申请实施例属于人工智能领域，应用于智慧社区领域中，涉及一种基于解码器的语音唤醒方法及其相关设备，包括接收初始语音唤醒模型，初始语音唤醒模型的输出层包括静音pdf节点、无用pdf节点和唤醒词pdf节点，静音pdf节点对应静音对应的pdf，唤醒词pdf节点对应唤醒词对应的pdf，无用pdf节点对应除唤醒词对应的pdf和静音对应的pdf以外的pdf；对语音训练数据集进行对齐操作，获得语音帧训练数据集，并训练初始语音唤醒模型，获得目标语音唤醒模型；将待识别语音输入目标语音唤醒模型，获得目标pdf概率；将目标pdf概率输入解码器中，获得解码结果；若解码结果为唤醒词，执行唤醒操作。目标语音唤醒模型可存储于区块链中。本申请提高了语音唤醒的准确率。请提高了语音唤醒的准确率。请提高了语音唤醒的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于解码器的语音唤醒方法及其相关设备

[0001]本申请涉及人工智能
，尤其涉及基于解码器的语音唤醒方法及其相关设备。

技术介绍

[0002]语音唤醒系统已经广泛应用在很多智能设备上，如智能音箱。它是语音交互的最前端。与其他更复杂的语音交互功能不同，语音唤醒会一直在后台执行，实时检测用户是否说了唤醒词。只有当检测到用户说了唤醒词之后，才会触发后续更复杂的语音交互逻辑。
[0003]现有的语音唤醒系统，在确定了唤醒词之后，一般都需要大量的唤醒词语音用于模型训练。这就带来了很大的不便，因为这种特定词的录音数据是很难得的，在普通的语音数据集当中，符合要求的语音数据占比很少。尤其是如果唤醒词是自己造的词，就更难得。这样就不得不专门录制唤醒词，这样一方面成本很高，另一方面专门录制的数据集质量也不如真实场景采集的数据，比如，很难覆盖复杂的噪声场景，难以保证说话人的多样性等。导致模型性能受录音质量的影响很大。而且一旦需要更换唤醒词，就需要重录新的唤醒词，即使有很多连续语音识别的训练数据也无法利用。
[0004]此外，...

【技术保护点】

【技术特征摘要】
1.一种基于解码器的语音唤醒方法，其特征在于，包括下述步骤：接收语音训练数据集和初始语音唤醒模型，其中，所述初始语音唤醒模型的输出层包括静音pdf节点、无用pdf节点和多个唤醒词pdf节点，所述静音pdf节点对应语音中静音对应的pdf，所述唤醒词pdf节点对应语音中唤醒词对应的pdf，所述无用pdf节点对应语音中除唤醒词对应的pdf和静音对应的pdf以外的pdf；对所述语音训练数据集进行对齐操作，获得语音帧训练数据集，通过所述语音帧训练数据集和所述语音训练数据集训练所述初始语音唤醒模型，获得目标语音唤醒模型；接收待识别语音，将所述待识别语音逐帧输入至所述目标语音唤醒模型中，获得输出的每帧对应的目标pdf概率；将各所述目标pdf概率输入至预训练的解码器中，获得输出的解码结果；判断所述解码结果是否为唤醒词，若所述解码结果为唤醒词，则执行唤醒操作。2.根据权利要求1所述的基于解码器的语音唤醒方法，其特征在于，在所述将各所述目标pdf概率输入至预训练的解码器中，获得输出的解码结果的步骤之前，还包括：通过预设语法构建目标解码图；所述将各所述目标pdf概率输入至预训练的解码器中，获得输出的解码结果的步骤包括：将各所述目标pdf概率输入至预训练的解码器中，所述解码器在所述目标解码图中寻找所述目标pdf概率序列的最优路径，获得输出的解码结果。3.根据权利要求2所述的基于解码器的语音唤醒方法，其特征在于，所述通过预设语法构建目标解码图的步骤包括：通过预设的语法构造G.fst图，其中，所述G.fst图有且仅有一条有效路径，所述有效路径对应一个唤醒词；对所述G.fst图和预设的L.fst图进行多次组合操作，获得唤醒HCLG.fst图；在所述唤醒HCLG.fst图中通过并联的方式添加一条输出为空的边，以吸收静音和无用发音，获得所述目标解码图。4.根据权利要求1所述的基于解码器的语音唤醒方法，其特征在于，所述连续语音识别模型的输出层包括多个pdf节点，所述基于预训练的连续语音识别模型对所述语音训练数据集进行对齐操作，获得语音帧训练数据集的步骤包括：基于预训练的连续语音识别模型对所述语音训练数据集进行帧级别的标注，获得标注数据集；根据预设的映射关系表，将所述标注数据集的训练标签替换为对应的目标标签，获得所述语音帧训练数据集，其中，所述映射关系表包括所述连续语音识别模型的pdf节点的名称和所述目标标签之间的对应关系，所述目标标签为所述静音pdf节点的名称、...

【专利技术属性】
技术研发人员：赵梦原，王健宗，张之勇，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人