语音唤醒方法、装置、计算机设备、存储介质及程序产品制造方法及图纸

技术编号：43624946 阅读：16 留言：0更新日期：2024-12-11 15:04

本申请涉及数据处理的技术领域，特别是涉及一种语音唤醒方法、装置、计算机设备、存储介质及程序产品。方法包括获取用户输入的语音数据，并通过目标模型对语音数据进行特征提取，得到语音数据对应的语音特征，目标模型为预训练的ASR模型；基于映射关系表和目标模型的发音词典，确定注册文本对应的文本特征，映射关系表是基于目标模型的隐层特征层构建的，隐层特征层包括音节与隐层特征的对应关系；确定语音特征与文本特征的相似度数据，并根据相似度数据确定是否执行唤醒任务。采用本方法能够提高唤醒的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理的，具体涉及一种语音唤醒方法、装置、计算机设备、存储介质及程序产品。

技术介绍

1、在语音交互的控制方式中，用户能够通过语音输入匹配注册的唤醒词，进而唤醒设备执行相应的任务；因这种方式具有较强的便利性，因此已在多种领域得到了广泛应用。

2、相关技术中，是基于从tts（text-to-speech，文本到语音）模型中抽取的隐层特征来确定注册文本的文本特征，然后采用语音编码器对用户输入的语音信息进行提取得到语音特征，再对文本特征和语音特征进行相似度计算，并根据相似度计算的结果确定是否需要唤醒设备。

3、但是，相关技术中的方式，由于文本特征和语音特征是通过不同模型得到的，其特征向量的维度不能对齐，因此，在对文本特征和语音特征进行相似度比对时，会存在较大的误差，进而影响唤醒的准确度。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音唤醒方法、装置、计算机设备、存储介质及程序产品。

2、第一方面，本申请提供了一种语音唤醒方法，包括：

3、获本文档来自技高网...

【技术保护点】

1.一种语音唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1或所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述文本特征包括所述注册文本中每一字符的字符特征，所述基于映射关系表和所述目标模型的发音词典，确定注册文本对应的文本特征，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述语音特征包括沿时间序列分布的多个语音帧，所述文本特征包括所述注册文本中每一字符对应的字符特征，所述确定所述语音特征与所述文本特征的相似度数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定各个语...

【技术特征摘要】

1.一种语音唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1或所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述确定各个语音帧分别与所述文本特征的相似度序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述将每一所述语音帧作为查询向量，并将所述文本特征作为键向量输入交叉注意力模块进行处理，得到各个语音帧分别与所述文本特征的相似度序列，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述相似度数据确定是否执行唤醒任务，包括：

...

【专利技术属性】
技术研发人员：陈杰，请求不公布姓名，
申请(专利权)人：北京绝影智联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人