语音唤醒方法、装置、计算机设备、存储介质及程序产品制造方法及图纸

技术编号:43624946 阅读:16 留言:0更新日期:2024-12-11 15:04
本申请涉及数据处理的技术领域,特别是涉及一种语音唤醒方法、装置、计算机设备、存储介质及程序产品。方法包括获取用户输入的语音数据,并通过目标模型对语音数据进行特征提取,得到语音数据对应的语音特征,目标模型为预训练的ASR模型;基于映射关系表和目标模型的发音词典,确定注册文本对应的文本特征,映射关系表是基于目标模型的隐层特征层构建的,隐层特征层包括音节与隐层特征的对应关系;确定语音特征与文本特征的相似度数据,并根据相似度数据确定是否执行唤醒任务。采用本方法能够提高唤醒的准确率。

【技术实现步骤摘要】

本申请涉及数据处理的,具体涉及一种语音唤醒方法、装置、计算机设备、存储介质及程序产品


技术介绍

1、在语音交互的控制方式中,用户能够通过语音输入匹配注册的唤醒词,进而唤醒设备执行相应的任务;因这种方式具有较强的便利性,因此已在多种领域得到了广泛应用。

2、相关技术中,是基于从tts(text-to-speech,文本到语音)模型中抽取的隐层特征来确定注册文本的文本特征,然后采用语音编码器对用户输入的语音信息进行提取得到语音特征,再对文本特征和语音特征进行相似度计算,并根据相似度计算的结果确定是否需要唤醒设备。

3、但是,相关技术中的方式,由于文本特征和语音特征是通过不同模型得到的,其特征向量的维度不能对齐,因此,在对文本特征和语音特征进行相似度比对时,会存在较大的误差,进而影响唤醒的准确度。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种语音唤醒方法、装置、计算机设备、存储介质及程序产品。

2、第一方面,本申请提供了一种语音唤醒方法,包括:

3、获本文档来自技高网...

【技术保护点】

1.一种语音唤醒方法,其特征在于,所述方法包括:

2.根据权利要求1或所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述文本特征包括所述注册文本中每一字符的字符特征,所述基于映射关系表和所述目标模型的发音词典,确定注册文本对应的文本特征,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述语音特征包括沿时间序列分布的多个语音帧,所述文本特征包括所述注册文本中每一字符对应的字符特征,所述确定所述语音特征与所述文本特征的相似度数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述确定各个语...

【技术特征摘要】

1.一种语音唤醒方法,其特征在于,所述方法包括:

2.根据权利要求1或所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述文本特征包括所述注册文本中每一字符的字符特征,所述基于映射关系表和所述目标模型的发音词典,确定注册文本对应的文本特征,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述语音特征包括沿时间序列分布的多个语音帧,所述文本特征包括所述注册文本中每一字符对应的字符特征,所述确定所述语音特征与所述文本特征的相似度数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述确定各个语音帧分别与所述文本特征的相似度序列,包括:

6.根据权利要求5所述的方法,其特征在于,所述将每一所述语音帧作为查询向量,并将所述文本特征作为键向量输入交叉注意力模块进行处理,得到各个语音帧分别与所述文本特征的相似度序列,包括:

7.根据权利要求4所述的方法,其特征在于,所述根据所述相似度数据确定是否执行唤醒任务,包括:

...

【专利技术属性】
技术研发人员:陈杰请求不公布姓名
申请(专利权)人:北京绝影智联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1