语音交互方法、电子设备以及存储介质技术

技术编号:39270717 阅读:11 留言:0更新日期:2023-11-07 10:50
本申请提供了一种语音交互方法、电子设备以及计算机可读存储介质。语音交互方法包括:与第一用户进行语音交互,并在语音交互的语音采集时段中,采集第一用户所在角度范围的第一音频信号和第二用户所在角度范围的第二音频信号,第二用户为在设定历史时段中与电子设备进行语音交互的用户;判断第一音频信号中的第一语音信号的开始时刻是否位于第一时段内,并根据判断结果从第一语音信号和第二语音信号中确定目标语音信号,第二语音信号为第二音频信号中包含的语音信号,第一时段为语音采集时段的开始时刻之后经过第一时长的时段;对目标语音信号进行应答。本申请可以在多人交互场景下准确地确定目标交互人。下准确地确定目标交互人。下准确地确定目标交互人。

【技术实现步骤摘要】
语音交互方法、电子设备以及存储介质


[0001]本申请涉及软件
,尤其涉及一种语音交互方法、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着音频处理技术和人工智能(Artificial Intelligence,AI)的发展,越来越多的电子设备(例如,智能音箱,智能机器人等)具备语音交互功能。在语音交互过程中,电子设备需要采集用户语音。为提高语音采集的准确率,电子设备会对目标方向(即当前交互人所在的方向)的声音进行采集,并抑制目标方向之外的其他方向的声音,以减小环境噪声对用户语音信号的干扰。
[0003]在一些情形中,电子设备可能处于多用户交互场景中。即,电子设备周围除了存在当前交互人之外,还存在其他可能与电子设备进行语音交互的用户(称作“潜在交互人”)。由于电子设备仅采集当前交互人所在方向的语音,这样,潜在交互人的声音会被抑制。当潜在交互人说话时,电子设备无法感知到其语音内容,从而无法对其进行回应。

技术实现思路

[0004]本申请的一些实施方式提供了一种语音交互方法、电子设备以及计算机可读存储介质,以下从多个方面介绍本申请,以下多个方面的实施方式和有益效果可互相参考。
[0005]第一方面,本申请实施方式提供了一种语音交互方法,用于电子设备,方法包括:与第一用户进行语音交互,并在语音交互的语音采集时段中,采集第一用户所在角度范围的第一音频信号和第二用户所在角度范围的第二音频信号,第二用户为在设定历史时段中与电子设备进行语音交互的用户;判断第一音频信号中的第一语音信号的开始时刻是否位于第一时段内,并根据判断结果从第一语音信号和第二语音信号中确定目标语音信号,第二语音信号为第二音频信号中包含的语音信号,第一时段为语音采集时段的开始时刻之后经过第一时长的时段;对目标语音信号进行应答。
[0006]根据本申请实施方式,可以根据第一时长在第一用户和第二用户中确定目标交互人,可以合理兼顾第一用户和第二用户的语音交互需求,准确地确定目标交互人,从而提高多人交互场景下的用户体验。
[0007]在一些实施方式中,第一语音信号的开始时刻和第二语音信号的开始时刻的至少之一位于第一时段内;根据判断结果从第一语音信号和第二语音信号中确定目标语音信号,包括:若第一语音信号的开始时刻位于第一时段内,则将第一语音信号确定为目标语音信号;否则,则根据第二语音信号和第一语音信号在时间上的交叠状态确定目标语音信号。
[0008]根据本申请实施方式,只要第一用户在第一时段内开口说话,电子设备即把第一用户确定为目标交互人(即维持第一用户为当前交互人不变),以优先满足第一用户的语音交互需求。
[0009]如果第一用户未在第一时段内开口说话,则认为第一用户的交互意愿较小,从而
有可能将第二用户确定为目标交互人,以兼顾第二用户的语音交互需求。
[0010]在一些实施方式中,根据第二语音信号和第一语音信号在时间上的交叠状态确定目标语音信号,包括:若第二语音信号和第一语音信号在时间上有交叠,则将第一语音信号确定为目标语音信号;若第二语音信号和第一语音信号在时间上无交叠,则将第二语音信号确定为目标语音信号。
[0011]在一些实施方式中,第一时长根据第一用户的交互意愿值P和/或第一用户与电子设备在设定时间段内的交互次数M确定,其中,交互意愿值P用于表征第一用户与电子设备的语音交互意愿。
[0012]在一些实施方式中,交互意愿值P根据第一用户的面部角度和/或第一用户与电子设备的距离确定。
[0013]在一些实施方式中,第一时长为k1×
P+k2×
min{M,n},其中,k1、k2为预设常数,n为3~6之间的整数。
[0014]在一些实施方式中,第二语音信号中不包括电子设备的唤醒词。
[0015]在一些实施方式中,设定历史时段为语音采集时段的开始时刻之前第二时长的时段。
[0016]第二方面,本申请实施方式提供了一种电子设备,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令;处理器,当处理器执行存储器中的指令时,可使得电子设备执行本申请第一方面任一实施方式提供的语音交互方法。第二方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
[0017]第三方面,本申请实施方式提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行本申请第一方面任一实施方式提供的语音交互方法。第三方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
附图说明
[0018]图1为本申请实施例的示例性应用场景;
[0019]图2为本申请实施例提供的电子设备的示例性结构图;
[0020]图3为本申请实施例提供的语音交互方法的示例性流程图;
[0021]图4为本申请实施例提供的电子设备与当前交互人进行语音交互的时序示意图;
[0022]图5为本申请实施例提供的用户语音采集过程的示例性流程图;
[0023]图6为本申请实施例提供的用户所在角度范围的示意图;
[0024]图7为本申请实施例提供的目标语音信号确定方法的示例性流程图;
[0025]图8A为本申请实施例提供的目标语音信号确定规则的示意图一;
[0026]图8B为本申请实施例提供的目标语音信号确定规则的示意图二;
[0027]图9为本申请实施例提供的目标语音信号确定规则的示意图三;
[0028]图10A为本申请实施例提供的目标语音信号确定规则的示意图四;
[0029]图10B为本申请实施例提供的目标语音信号确定规则的示意图五;
[0030]图11为本申请实施例的另一示例性应用场景;
[0031]图12为一些实施例中的语音交互方法示意图;
[0032]图13为另一些实施例中的语音交互方法示意图;
[0033]图14示出了本申请实施方式提供的电子设备的框图;
[0034]图15示出了本申请实施方式提供的片上系统(System on Chip,SOC)的结构示意图。
具体实施方式
[0035]以下将参考附图详细说明本申请的具体实施方式。
[0036]为便于理解,首先介绍本申请中可能涉及的音频处理技术。
[0037](1)波束成形:波束成形技术可以确定声源的方向。波束成形技术依赖于麦克风阵列。声源在发声时,麦克风阵列中各个麦克风(即各声音采集通道)接收到的声音信号存在延时,波束成形技术能够通过各通道的延时信息对声源进行定位(例如,确定声源的方向角,仰角和距离)。
[0038]波束成形技术还可以对目标角度内的声音进行采集。波束成形技术能够对麦克风阵列中各通道声音信号进行移相、加权等处理,从而实现增强目标角度内的声音信号,抑制其他方向的声音信号的目的,以实现目标角度内(例如,电子设备正前方
±
30
°
内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法,用于电子设备,其特征在于,所述方法包括:与第一用户进行语音交互,并在所述语音交互的语音采集时段中,采集所述第一用户所在角度范围的第一音频信号和第二用户所在角度范围的第二音频信号,所述第二用户为在设定历史时段中与所述电子设备进行语音交互的用户;判断所述第一音频信号中的第一语音信号的开始时刻是否位于第一时段内,并根据判断结果从所述第一语音信号和第二语音信号中确定目标语音信号,所述第二语音信号为所述第二音频信号中包含的语音信号,所述第一时段为所述语音采集时段的开始时刻之后经过第一时长的时段;对所述目标语音信号进行应答。2.根据权利要求1所述的方法,其特征在于,所述第一语音信号的开始时刻和所述第二语音信号的开始时刻的至少之一位于所述第一时段内;所述根据判断结果从所述第一语音信号和第二语音信号中确定目标语音信号,包括:若所述第一语音信号的开始时刻位于所述第一时段内,则将所述第一语音信号确定为目标语音信号;否则,则根据所述第二语音信号和所述第一语音信号在时间上的交叠状态确定所述目标语音信号。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二语音信号和所述第一语音信号在时间上的交叠状态确定所述目标语音信号,包括:若所述第二语音信号和所述第一语音信号在时间上有交叠,则将所述第一语音信号确定为所述目标语音信号;若所述第二语音信号和所述第一语音信号在时间上无交叠...

【专利技术属性】
技术研发人员:吴鹏扬曾俊飞
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1