基于语音的交互方法、装置、智能设备和计算机可读存储介质制造方法及图纸

技术编号:34421770 阅读:16 留言:0更新日期:2022-08-06 15:47
本发明专利技术的实施例提供了一种基于语音的交互方法、装置、智能设备和计算机可读存储介质,涉及智能交互技术领域,方法包括:接收所处家居空间的声音数据,获得与声音数据对应的家居场景类型,当获得交互指示时,通过与家居场景类型对应的语音预测策略生成预测声学特征,对预测声学特征进行合成,获得与交互指示对应的输出响应语音数据,从而提高了输出响应语音数据的适配度。据的适配度。据的适配度。

【技术实现步骤摘要】
基于语音的交互方法、装置、智能设备和计算机可读存储介质


[0001]本专利技术涉及智能交互
,具体而言,涉及一种基于语音的交互方法、装置、智能设备和计算机可读存储介质。

技术介绍

[0002]现有的智能家居场景中,智能设备在与用户进行语音交互过程中需要进行语音合成并将合成的语音进行播报,经研究发现,现今智能设备所播报的语音的适配度有待提高。

技术实现思路

[0003]法国耳鼻喉科医生爱蒂安
·
伦巴德于1909年经研究发现,在有噪声环境下进行交流的时候,说话人不得不主动改变发声方式,提高声音的效果,希望使对方能听清。经研究发现,即使同一个人发相同的语音,在不同环境下的语音特征也有所不同,改变的特征包括提高声音的音高、音调、响度及共振峰特征等。这种现象称为Lombard effect(伦巴德效应)。有鉴于此,专利技术人对如何提高智能设备在嘈杂声学环境所播报语音的清晰度进行了研究,进而提出一种智能设备通过“模仿”(即:应用)人类在Lombard effect下主动改变发声方式的这种变化,使得在家居场景类型为嘈杂类型时,合成具有对应场景声学风格的语音数据进行播报,通过合成具备更好辨识度、自然度和可懂度的语音,我们在此称为Lombard speech(伦巴德语音),以确保在嘈杂家居环境下与用户语音交互的顺畅度。
[0004]本专利技术的目的之一包括,例如,提供了一种基于语音的交互方法、装置、智能设备和计算机可读存储介质,以至少部分地提高输出响应语音数据的适配度。
[0005]本专利技术的实施例可以这样实现:
[0006]第一方面,本专利技术实施例提供一种基于语音的交互方法,应用于智能设备,所述方法包括:
[0007]接收所处家居空间的声音数据;
[0008]获得与所述声音数据对应的家居场景类型;
[0009]当获得交互指示时,通过与所述家居场景类型对应的语音预测策略生成预测声学特征;
[0010]对所述预测声学特征进行合成,获得与所述交互指示对应的输出响应语音数据。
[0011]通过获得家居场景类型,基于与家居场景类型对应的语音预测策略生成预测声学特征,并合成输出响应语音数据,从而确保输出响应语音数据的适配度。
[0012]第二方面,本专利技术实施例提供一种基于语音的交互方法,包括:
[0013]将响应文本内容信息输入伦巴德语音生成模型,得到与家居场景对应的输出响应语音数据,所述伦巴德语音生成模型基于伦巴德语音学习得到。
[0014]第三方面,本专利技术实施例提供一种基于语音的交互装置,应用于智能设备,所述基于语音的交互装置包括:
[0015]信息确定模块,用于接收所处家居空间的声音数据,获得与所述声音数据对应的
家居场景类型,当获得交互指示时,通过与所述家居场景类型对应的语音预测策略生成预测声学特征;
[0016]响应语音数据合成模块,用于对所述预测声学特征进行合成,获得输出响应语音数据。
[0017]通过获得家居场景类型,基于与家居场景类型对应的语音预测策略生成预测声学特征,并合成输出响应语音数据,从而确保输出响应语音数据的适配度。
[0018]第四方面,本专利技术实施例提供一种智能设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施方式任一项所述的基于语音的交互方法。相应地,该智能设备包括基于语音的交互方法中的有益效果。
[0019]第五方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在智能设备执行前述实施方式任一项所述的基于语音的交互方法。相应地,该计算机可读存储介质包括基于语音的交互方法中的有益效果。
[0020]为使本专利技术实施例的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0022]图1示出了本专利技术实施例提供的一种智能设备的交互架构意图。
[0023]图2示出了本专利技术实施例提供的一种应用场景示意图。
[0024]图3示出了本专利技术实施例提供的一种基于语音的交互方法的流程示意图。
[0025]图4示出了本专利技术实施例提供的一种安静类型的场景示意图。
[0026]图5示出了本专利技术实施例提供的一种嘈杂类型的场景示意图。
[0027]图6示出了本专利技术实施例提供的一种声源类型的示意图。
[0028]图7示出了本专利技术实施例提供的一种配置语音预测策略的场景示意图。
[0029]图8示出了本专利技术实施例提供的一种配置语音预测策略的交互界面示意图。
[0030]图9示出了本专利技术实施例提供的一种合成输出响应语音数据的实现原理示意图。
[0031]图10示出了本专利技术实施例提供的一种合成输出响应语音数据的另一实现原理示意图。
[0032]图11示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的流程示意图。
[0033]图12示出了本专利技术实施例提供的一种场景声学风格提取器的训练架构示意图。
[0034]图13示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的另一流程示意图。
[0035]图14示出了本专利技术实施例提供的一种场景声学风格提取器的另一训练架构示意
图。
[0036]图15示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的另一流程示意图。
[0037]图16示出了本专利技术实施例提供的一种场景声学风格提取器的又一训练架构示意图。
[0038]图17示出了本专利技术实施例提供的一种场景声学风格提取器训练方法的又一流程示意图。
[0039]图18示出了本专利技术实施例提供的一种参考编码器的示意图之一。
[0040]图19示出了本专利技术实施例提供的一种参考编码器的示意图之二。
[0041]图20示出了本专利技术实施例提供的一种参考编码器的示意图之三。
[0042]图21示出了本专利技术实施例提供的一种场景声学风格提取器的又一训练架构示意图。
[0043]图22示出了本专利技术实施例提供的一种第一场景分类模型训练方法的流程示意图。
[0044]图23示出了本专利技术实施例提供的一种第一场景分类模型训练方法的另一流程示意图。
[0045]图24示出了本专利技术实施例提供的一种声学特征预测模型训练方法的流程示意图。
[0046]图25示出了本专利技术实施例提供的一种声学特征预测模型的训练架构示意图。
[0047]图26示出了本专利技术实施例提供的一种场景声学风格提取器的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音的交互方法,应用于智能设备,其特征在于,所述方法包括:接收所处家居空间的声音数据;获得与所述声音数据对应的家居场景类型;当获得交互指示时,通过与所述家居场景类型对应的语音预测策略生成预测声学特征;对所述预测声学特征进行合成,获得与所述交互指示对应的输出响应语音数据。2.根据权利要求1所述的基于语音的交互方法,其特征在于,所述通过与所述家居场景类型对应的语音预测策略生成预测声学特征的步骤,包括:当所述家居场景类型为安静类型时,根据响应文本内容信息确定与所述安静类型对应的第一预测声学特征。3.根据权利要求1所述的基于语音的交互方法,其特征在于,所述通过与所述家居场景类型对应的语音预测策略生成预测声学特征的步骤,包括:当所述家居场景类型为嘈杂类型时,确定该嘈杂类型对应的场景风格嵌入信息;其中,所述场景风格嵌入信息表征与嘈杂家居场景对应的场景声学风格;根据响应文本内容信息与所述场景风格嵌入信息确定与所述嘈杂类型对应的第二预测声学特征。4.根据权利要求1所述的基于语音的交互方法,其特征在于,还包括:当所述智能设备处于初始状态时,获得所述智能设备所处家居空间的声源类型;所述声源类型表征所处家居空间中包含的声源对应的声学特征;根据所述声源类型确定所述家居场景类型。5.根据权利要求1所述的基于语音的交互方法,其特征在于,还包括:接收用户配置的语音预测策略,所述语音预测策略包含嘈杂类型对应的场景风格嵌入信息;其中,所述场景风格嵌入信息表征与家居场景对应的场景声学风格;所述通过与所述家居场景类型对应的语音预测策略生成预测声学特征的步骤,包括:根据响应文本内容信息与所述场景风格嵌入信息确定与所述嘈...

【专利技术属性】
技术研发人员:高羽
申请(专利权)人:美的集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1