语音交互方法技术

技术编号:39743178 阅读:9 留言:0更新日期:2023-12-17 23:43
本申请实施例提供一种语音交互方法

【技术实现步骤摘要】
语音交互方法、装置、设备及存储介质


[0001]本申请涉及智能识别
,尤其涉及一种语音交互方法

装置

设备及存储介质


技术介绍

[0002]在机器人工作的环境中,远处的说话声

近处的人与人的对话声

周边的电视机的播放声,甚至是环境中的嘈杂声,都会被机器人乱拾音,进而引发莫名其妙的错误对答

对近处的用户而言,似乎感觉机器人莫名其妙自言自语,甚至给人带来的不适感,感觉机器人看起来不可理喻和失去控制

[0003]可见,在机器人应用场景中,机器人往往会出现乱拾音乱搭话的现象


技术实现思路

[0004]鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的语音交互方法

装置

设备及存储介质

[0005]于是,在本申请的一个实施例中,提供了一种语音交互方法,包括:
[0006]当机器人采集到目标语音信息后,获取目标识别结果;所述目标识别结果是基于所述机器人在所述目标语音信息的语音结束时刻之前的目标时间段内采集到的视觉信息识别得到的;
[0007]根据所述目标识别结果,判断所述目标语音信息的目标受众是否为所述机器人;
[0008]判断出所述目标语音信息的目标受众为所述机器人时,控制所述机器人针对所述目标语音信息进行响应

[0009]在本申请的又一实施例中,提供了一种语音交互装置,包括:
[0010]获取模块,用于当机器人采集到目标语音信息后,获取目标识别结果;所述目标识别结果是基于所述机器人在所述目标语音信息的语音结束时刻之前的目标时间段内采集到的视觉信息识别得到的;
[0011]判断模块,用于根据所述目标识别结果,判断所述目标语音信息的目标受众是否为所述机器人;
[0012]控制模块,用于判断出所述目标语音信息的目标受众为所述机器人时,控制所述机器人针对所述目标语音信息进行响应

[0013]在本申请的又一实施例中,提供了一种电子设备

该电子设备,包括:存储器和处理器,其中,
[0014]所述存储器,用于存储程序;
[0015]所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任一项所述的语音交互方法

[0016]在本申请的又一实施例中,提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述任一项所述的语音交互方法

[0017]本申请实施例提供的技术方案中,在机器人采集到目标语音信息后,获取基于机器人在目标语音信息的语音结束时刻之前的一段时间内采集到的视觉信息识别得到的目标识别结果;基于该目标识别结果对目标语音信息进行有效性判断,也即判断该目标识别结果的目标受众是否为机器人

也就是说,本方案是利用机器人在拾音结束之前的一段时间内采集到的视觉信息对拾到的语音信息进行有效性判断,进而来减少机器人由于误拾他人对话而乱搭话的情况

并且,在本实施例中,通过模拟人类视觉识别反应时间,将目标语音信息与目标语音信息的语音结束时刻之前的一段时间内的视觉信息进行对齐,可避免视觉识别算法本身对单张图片识别的置信度偏差带来的信息失误,增加视觉信息的数量可以补足单图片识别置信度带来的偏差

附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0019]图
1a
为本申请一实施例提供的向前对齐和向前向后对齐的示意图;
[0020]图
1b
为本申请一实施例提供的语音交互方法的流程示意图;
[0021]图
2a
为本申请一实施例提供的有关人脸姿态的有效性判断标准的修正示意图;
[0022]图
2b
为本申请一实施例提供的有效性判断的示例图;
[0023]图
2c
为本申请一实施例提供的人脸坐标系示意图;
[0024]图3为本申请一实施例提供的机器人语音交互系统的示意图;
[0025]图4为本申请一实施例提供的基于云端的语音有效性判断方法的示意图;
[0026]图5为本申请一实施例提供的有关视觉识别过程的示意图;
[0027]图6为本申请一实施例提供的基于端侧的语音有效性判断方法的示意图;
[0028]图7为本申请一实施例提供的电子设备的结构框图

具体实施方式
[0029]因为客观世界本身是多模态的,人类通过触觉

视觉

听觉

嗅觉等方面和外界充分接触,进而产生刺激,产生记忆,产生认知,并反过来影响世界

因此,将
AGI(Artificial General Intelligence
,通用人工智能
)
落地到机器人领域,希望机器人像人类一样产生智能,多模态人工智能就是发展的重要方向

[0030]人工智能本质上是依赖数据的

单一模态数据能提供的信息相对有限,而多模态数据可以提供多层次,多视角的信息

[0031]机器人通过麦克风或者麦克风阵列进行拾音处理,是产生机器人语音交互系统的重要输入之一

在单一模态人工智能时代,麦克风拾取语音命令后,进行语音识别

语义理解并产生输出应答即可

在采用单模态拾音技术的机器人应用场景中,机器人往往会出现乱拾音乱搭话的现象

而在多模态人工智能时代,多模态拾音技术需要配合图像,视频等和语音进行有效理解,会更深入理解复杂环境,并做出更具针对性和更加智慧的决策与交互

[0032]通过模仿人类拾音习惯是基于多模态识别和决策的过程,本申请实施例针对这种
情况,通过改进对话模型,增加拾音有效性判断的环节,来减少机器人由于误拾他人对话而乱搭话的情况

在时间轴进行人类感知程度级别的模糊处理,也即采用模糊化对齐方式
(
如图
1a
所示的向前对齐和向前向后对齐
)
对齐机器人的语音信息与其他模态信息,例如:视觉信息,识别到周边有人没人,人的距离远近,人脸朝向,人脸唇动情况等信息,来对拾取到的语音进行有效性判断

如果判断出拾取得到的语音的目标受众并非是机器人,则机器人直接丢弃该语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音交互方法,其特征在于,包括:当机器人采集到目标语音信息后,获取目标识别结果;所述目标识别结果是基于所述机器人在所述目标语音信息的语音结束时刻之前的目标时间段内采集到的视觉信息识别得到的;根据所述目标识别结果,判断所述目标语音信息的目标受众是否为所述机器人;判断出所述目标语音信息的目标受众为所述机器人时,控制所述机器人针对所述目标语音信息进行响应
。2.
根据权利要求1所述的方法,其特征在于,所述机器人上设有视觉信息采集装置;根据所述目标识别结果,判断所述目标语音信息的目标受众是否为所述机器人,包括:根据所述目标语音信息的拾音方向以及所述视觉信息采集装置的朝向,从所述目标识别结果中获取位于所述目标语音信息的拾音方向上的视觉识别结果;根据所述视觉识别结果,判断所述目标语音信息的目标受众是否为所述机器人
。3.
根据权利要求2所述的方法,其特征在于,所述视觉识别结果中包括位于所述目标语音信息的拾音方向上的人脸姿态;根据所述视觉识别结果,判断所述目标语音信息的目标受众是否为所述机器人,包括:根据所述目标语音信息的拾音方向以及所述视觉信息采集装置的朝向,确定有关人脸姿态的有效性标准;判断所述人脸姿态是否满足所述有效性姿态标准,以确定所述目标语音信息的目标受众是否为所述机器人
。4.
根据权利要求3所述的方法,其特征在于,所述视觉识别结果中还包括:位于所述目标语音信息的拾音方向上的人脸距离;根据所述视觉识别结果,判断所述目标语音信息的目标受众是否为所述机器人,还包括:判断所述人脸距离是否满足预设的有效性距离标准;若所述人脸距离满足所述预设的有效性距离标准,则触发所述根据所述目标语音信息的拾音方向以及所述视觉信息采集装置的朝向,确定有关人脸姿态的有效性标准的步骤
。5.
根据权利要求2至4中任一项所述的方法,其特征在于,还包括:根据所述目标语音信息的拾音方向以及所述视觉信息采集装置的朝向,确定所述拾音方向是否位于所述视觉信息采集装置的有效视觉区域内;若所述拾音方向未位于所述视觉信息采集装置的有效视觉区域内,则控制所述机器人转动所述视觉信息采集装置,以使所述拾音方向位于所述视觉信息采集装置的有效视觉区域内;获取基于后续视觉信息识别得到的后续视觉识别信息;所述后续视觉信息是所述机器人转动所述视觉信息采集...

【专利技术属性】
技术研发人员:李宁韩科委蒲东周明才欧杨
申请(专利权)人:达闼机器人股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1