交互能力的确定方法和装置、存储介质及电子装置制造方法及图纸

技术编号:38218251 阅读:12 留言:0更新日期:2023-07-25 11:29
本申请公开了一种交互能力的确定方法和装置、存储介质及电子装置,涉及智慧家庭技术领域,该交互能力的确定方法包括:在第一时间点开启对目标对象和语音交互设备之间的交互语音的录制任务,其中,第一时间点为目标对象对语音交互设备发出唤醒音频的结束时间点;在第二时间点结束录制任务,得到语音交互设备在第一时间点和第二时间点之间的音频响应数据,其中,第二时间点和第一时间点的时间差值是预设时间阈值,音频响应数据包括:语音交互设备对唤醒音频的第一响应结果,语音交互设备对唤醒音频的响应时间,语音交互设备对目标对象发出的语音指令的第二响应结果;根据音频响应数据确定语音交互设备的交互能力。据确定语音交互设备的交互能力。据确定语音交互设备的交互能力。

【技术实现步骤摘要】
交互能力的确定方法和装置、存储介质及电子装置


[0001]本申请涉及智慧家庭
,具体而言,涉及一种交互能力的确定方法和装置、存储介质及电子装置。

技术介绍

[0002]随着人工智能技术的兴起,各种人工智能设备也开始进入千家万户。从前对普通人可望不可即的人工智能概念,现在已经具化成音箱、眼镜和扫地机等智能家居并成为人们生成必不可少的一部分。
[0003]智能音箱作为人工智能产品的典型代表,也逐渐从一个追求新鲜感的玩具变成智能家居场景与用户交互的入口,因而用户对智能音箱的需求和要求也越来越高,其中,最主要表现的就是唤醒和交互。唤醒成功率是指用户在对音箱发出唤醒指令后,音箱被唤醒成功的概率;唤醒时延是指用户在对音箱发出唤醒指令后,到音箱被成功唤醒回复的时间间隔;交互时延是指从用户对音箱发出交互指令后,到音箱成功交互的时间间隔。
[0004]对于上述交互能力的性能指标测试,每次测试都需要进行大量的重复测试,而目前的成功率测试方法是人工判断是否唤醒成功;唤醒时延的测试方法是人工播放示例语料,并通过终端上传日志,根据sdk给的关键点信息进行分析交互响应时间。通过人工判断唤醒是否成功、通过分析终端日志来分析唤醒时延过程复杂,且依赖于人工操作,耗时长且效率低。
[0005]针对现有技术中,通过人工测量和分析智能音箱的交互性能指标,耗时长且测试效率低等问题,尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种交互能力的确定方法和装置、存储介质及电子装置,以至少解决现有技术中,通过人工测量和分析智能音箱的交互性能指标,耗时长且测试效率低的问题。
[0007]根据本专利技术实施例的一个实施例,提供了一种交互能力的确定方法,包括:在第一时间点开启对目标对象和语音交互设备之间的交互语音的录制任务,其中,所述第一时间点为所述目标对象对所述语音交互设备发出唤醒音频的结束时间点;在第二时间点结束所述录制任务,得到所述语音交互设备在所述第一时间点和所述第二时间点之间的音频响应数据,其中,所述第二时间点和所述第一时间点的时间差值是预设时间阈值,所述音频响应数据包括:所述语音交互设备对所述唤醒音频的第一响应结果,所述语音交互设备对所述唤醒音频的响应时间,所述语音交互设备对所述目标对象发出的语音指令的第二响应结果;根据所述音频响应数据确定所述语音交互设备的交互能力。
[0008]在一个示例性实施例中,根据所述音频响应数据确定所述语音交互设备的交互能力,包括:在所述交互能力包括唤醒时延和交互时延的情况下,对所述音频响应数据进行降噪处理,并对降噪后的音频响应数据进行音频分割,得到所述音频响应数据的多个音频片
段;将所述多个音频片段中音频时长小于预设时长的音频片段确定为噪声片段,并将所述噪声片段从所述多个音频片段中删除,得到多个语音交互片段;根据所述多个语音交互片段在所述音频响应数据中的起始时间和结束时间确定所述语音交互设备的交互能力。
[0009]在一个示例性实施例中,对所述音频响应数据进行降噪处理,并对降噪后的音频响应数据进行音频分割,得到所述音频响应数据的多个音频片段,包括:根据预设声音阈值去除所述音频响应数据中的噪声数据,得到所述降噪后的音频响应数据,其中,所述预设声音阈值为预设测试场景中噪声的最大分贝值;根据静音片段对所述降噪后的音频响应数据进行音频分割,得到所述多个音频片段,其中,所述静音片段为所述降噪后的音频响应数据中静音时长大于预设时间阈值的音频,所述多个音频片段不包含所述静音片段。
[0010]在一个示例性实施例中,所述音频响应数据还包括所述目标对象发出的语音指令,根据所述多个语音交互片段在所述音频响应数据中的起始时间和结束时间确定所述语音交互设备的交互能力,包括:确定所述语音指令对应的第三时间点和第四时间点,其中,所述第三时间点为所述语音指令的开始时间点,所述第四时间点为所述语音指令的结束时间点;将第一语音交互片段的开始时间点与所述第一时间点之差确定为所述唤醒时延,并将第二语音交互片段的开始时间点与所述第四时间点之差确定为所述交互时延,其中,所述第一语音交互片段为所述多个语音交互片段中位于所述第一时间点与所述第三时间点之间的语音交互片段,所述第二语音交互片段为所述多个语音交互片段中位于所述第四时间点与所述第二时间点之间的语音交互片段。
[0011]在一个示例性实施例中,根据所述音频响应数据确定所述语音交互设备的交互能力,包括:在所述交互能力包括唤醒成功率的情况下,循环执行开始步骤和结束步骤,得到多个音频响应数据,其中,所述开始步骤包括:在所述第一时间点开启对所述目标对象和所述语音交互设备之间的交互语音的录制任务;所述结束步骤包括:在第二时间点结束所述录制任务,得到所述语音交互设备在所述第一时间点和所述第二时间点之间的音频响应数据;根据所述多个音频响应数据对应的唤醒状态确定所述语音交互设备的唤醒成功率。
[0012]在一个示例性实施例中,根据所述多个音频响应数据对应的唤醒状态确定所述语音交互设备的唤醒成功率,包括:在第一语音交互片段存在的情况下,确定所述音频响应数据对应的唤醒状态为唤醒成功;确定所述多个音频响应数据中唤醒状态为唤醒成功的第一音频响应数据的数量;根据多个第一音频响应数据的数量确定所述唤醒成功率。
[0013]在一个示例性实施例中,在第一时间点开启对目标对象和语音交互设备之间的交互语音的录制任务之前,所述方法还包括:获取所述语音交互设备的多个历史音频响应数据,其中,所述多个历史音频响应数据对应的唤醒状态为唤醒成功;将所述多个历史音频响应数据的音频时长的平均值确定为所述预设时间阈值。
[0014]根据本专利技术实施例的另一个实施例,还提供了一种交互能力的确定装置,包括:开启模块,用于在第一时间点开启对目标对象和语音交互设备之间的交互语音的录制任务,其中,所述第一时间点为所述目标对象对所述语音交互设备发出唤醒音频的结束时间点;结束模块,用于在第二时间点结束所述录制任务,得到所述语音交互设备在所述第一时间点和所述第二时间点之间的音频响应数据,其中,所述第二时间点和所述第一时间点的时间差值是预设时间阈值,所述音频响应数据包括:所述语音交互设备对所述唤醒音频的第一响应结果,所述语音交互设备对所述唤醒音频的响应时间,所述语音交互设备对所述目
标对象发出的语音指令的第二响应结果;确定模块,用于根据所述音频响应数据确定所述语音交互设备的交互能力。
[0015]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述交互能力的确定方法。
[0016]根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的交互能力的确定方法。
[0017]在本申请实施例中,在目标对象对语音交互设备发出唤醒音频的结束时间点(即第一时间点)开启对目标对象和语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互能力的确定方法,其特征在于,包括:在第一时间点开启对目标对象和语音交互设备之间的交互语音的录制任务,其中,所述第一时间点为所述目标对象对所述语音交互设备发出唤醒音频的结束时间点;在第二时间点结束所述录制任务,得到所述语音交互设备在所述第一时间点和所述第二时间点之间的音频响应数据,其中,所述第二时间点和所述第一时间点的时间差值是预设时间阈值,所述音频响应数据包括:所述语音交互设备对所述唤醒音频的第一响应结果,所述语音交互设备对所述唤醒音频的响应时间,所述语音交互设备对所述目标对象发出的语音指令的第二响应结果;根据所述音频响应数据确定所述语音交互设备的交互能力。2.根据权利要求1所述的交互能力的确定方法,其特征在于,根据所述音频响应数据确定所述语音交互设备的交互能力,包括:在所述交互能力包括唤醒时延和交互时延的情况下,对所述音频响应数据进行降噪处理,并对降噪后的音频响应数据进行音频分割,得到所述音频响应数据的多个音频片段;将所述多个音频片段中音频时长小于预设时长的音频片段确定为噪声片段,并将所述噪声片段从所述多个音频片段中删除,得到多个语音交互片段;根据所述多个语音交互片段在所述音频响应数据中的起始时间和结束时间确定所述语音交互设备的交互能力。3.根据权利要求2所述的交互能力的确定方法,其特征在于,对所述音频响应数据进行降噪处理,并对降噪后的音频响应数据进行音频分割,得到所述音频响应数据的多个音频片段,包括:根据预设声音阈值去除所述音频响应数据中的噪声数据,得到所述降噪后的音频响应数据,其中,所述预设声音阈值为预设测试场景中噪声的最大分贝值;根据静音片段对所述降噪后的音频响应数据进行音频分割,得到所述多个音频片段,其中,所述静音片段为所述降噪后的音频响应数据中静音时长大于预设时间阈值的音频,所述多个音频片段不包含所述静音片段。4.根据权利要求2所述的交互能力的确定方法,其特征在于,所述音频响应数据还包括所述目标对象发出的语音指令,根据所述多个语音交互片段在所述音频响应数据中的起始时间和结束时间确定所述语音交互设备的交互能力,包括:确定所述语音指令对应的第三时间点和第四时间点,其中,所述第三时间点为所述语音指令的开始时间点,所述第四时间点为所述语音指令的结束时间点;将第一语音交互片段的开始时间点与所述第一时间点之差确定为所述唤醒时延,并将第二语音交互片段的开始时间点与所述第四时间点之差确定为所述交互时延,其中,所述第一语音交互片段为所述多个语音交互片段中位于所述第一时间点与所述第三时间点之间的语音交互片段,所述第二语音交互片段为所述多个语音交...

【专利技术属性】
技术研发人员:侯玉坤
申请(专利权)人:青岛海尔科技有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1