主动交互的方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：26505965 阅读：28 留言：0更新日期：2020-11-27 15:33

本申请公开了一种主动交互的方法、装置、电子设备和可读存储介质，涉及深度学习、图像处理技术领域。本申请在进行主动交互时所采用的实现方案为：获取实时拍摄的视频；从所述视频的各图像帧中提取视觉目标，并生成各视觉目标的第一特征向量；针对所述视频的各图像帧，将各视觉目标的第一特征向量以及所属图像帧的标识信息进行融合，生成各视觉目标的第二特征向量；分别聚合具有相同标识信息的第二特征向量，生成对应各图像帧的第三特征向量；根据预设图像帧的第三特征向量确定进行主动交互之后，发起主动交互。本申请能够提升主动交互的准确性以及智能性。

全部详细技术资料下载

【技术实现步骤摘要】
主动交互的方法、装置、电子设备和可读存储介质
本申请涉及人工智能
，尤其涉及图像处理
中的一种的方法、装置、电子设备和可读存储介质。
技术介绍
传统主动交互的现有解决方案是使用人体检测、人脸检测等方法，按照预设规则触发简单的交互逻辑以实现主动交互。虽然现有解决方案会融合一些社会学中人与人交互的准则作为规则，但受限于感知的信号纬度单一，复杂规则的设定困难，不能对实际复杂场景下多种交互意图进行反馈，只能做简单问候。特别是对于多人场景，规则驱动的方法很难发现最显著的可交互对象，可能造成误扰行人等情况，因此主动交互的准确性以及智能性都较低。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种主动交互的方法，包括：获取实时拍摄的视频；从所述视频的各图像帧中提取视觉目标，并生成各视觉目标的第一特征向量；针对所述视频的各图像帧，将各视觉目标的第一特征向量以及所属图像帧的标识信息进行融合，生成各视觉目标的第二特征向量；分别聚合具有相同标识信息的第二特征向量，生成对应各图像帧的第三特征向量；根...

【技术保护点】
1.一种主动交互的方法，包括：/n获取实时拍摄的视频；/n从所述视频的各图像帧中提取视觉目标，并生成各视觉目标的第一特征向量；/n针对所述视频的各图像帧，将各视觉目标的第一特征向量以及所属图像帧的标识信息进行融合，生成各视觉目标的第二特征向量；/n分别聚合具有相同标识信息的第二特征向量，生成对应各图像帧的第三特征向量；/n根据预设图像帧的第三特征向量确定进行主动交互之后，发起主动交互。/n

【技术特征摘要】
1.一种主动交互的方法，包括：
获取实时拍摄的视频；
从所述视频的各图像帧中提取视觉目标，并生成各视觉目标的第一特征向量；
针对所述视频的各图像帧，将各视觉目标的第一特征向量以及所属图像帧的标识信息进行融合，生成各视觉目标的第二特征向量；
分别聚合具有相同标识信息的第二特征向量，生成对应各图像帧的第三特征向量；
根据预设图像帧的第三特征向量确定进行主动交互之后，发起主动交互。

2.根据权利要求1所述的方法，其中，所述从所述视频的各图像帧中提取视觉目标包括：
从所述视频的各图像帧中提取特定目标作为视觉目标。

3.根据权利要求1所述的方法，其中，所述从所述视频的各图像帧中提取视觉目标，并生成各视觉目标的第一特征向量包括：
根据图像帧的特征图标注视觉目标；
从特征图中提取对应所述视觉目标的特征图子区域，并将各特征图子区域转换为大小一致的子特征图；
对各子特征图进行全局平均池化之后，得到各视觉目标的第一特征向量。

4.根据权利要求3所述的方法，还包括，
在得到各视觉目标的第一特征向量之后，在以图像帧的中心为原点的二维坐标系下，确定各视觉目标在图像帧中的左上角坐标以及右下角坐标；
分别从图像帧中对应各视觉目标的坐标范围内选择多个点之后，建立各视觉目标在二维平面的位置表示；
将所建立的位置表示平铺为预设维数的位置特征向量之后，与各视觉目标的第一特征向量进行拼接。

5.根据权利要求1所述的方法，其中，所述针对所述视频的各图像帧，将各视觉目标的第一特征向量以及所属图像帧的标识信息进行融合，生成各视觉目标的第二特征向量包括：
针对视频中的各图像帧，将视觉目标的第一特征向量以及所属图像帧的标识信息输入至预先构建的神经网络模型；
将所述神经网络模型的输出结果作为视觉目标的第二特征向量；
其中，所述神经网络模型中包含多个解码器块，每个解码器块中包含自注意力层以及前向层。

6.根据权利要求1所述的方法，其中，所述发起主动交互包括：
获取对应各多模态交互方式的特征向量；
根据预设图像帧的第三特征向量与对应各多模态交互方式的特征向量，确定发起主动交互时所采用的多模态交互方式；
利用所确定的多模态交互方式进行主动交互。

7.根据权利要求6所述的方法，其中，所述获取对应各多模态交互方式的特征向量包括：
使用预训练语言模型获取表征各交互语句的语义向量；
获取分别表征各交互表情以及各交互动作的独热编码；
使用不同的交互语言、交互表情以及交互动作，构建不同的多模态交互方式；
将对应各多模态交互方式的语义向量以及独热编码进行拼接之后，输入全连接网络，将输出结果作为对应各多模态交互方式的特征向量。

8.根据权利要求6所述的方法，其中，所述根据预设图像帧的第三特征向量与对应各多模态交互方式的特征向量，确定发起主动交互时所采用的多模态交互方式包括：
分别将预设图像帧的第三特征向量与对应各多模态交互方式的特征向量相乘之后，输入至预先训练得到的第二判别模型；
根据所述第二判别模型的输出结果，确定发起主动交互时所采用的多模态交互方式。

9.一种主动交互的装置，包括：
获取单元，用于获取实时拍摄的视频；
第一生成单元，用于从所述视频的各图像帧中提取视觉目标，并生成各视觉目标的第一特征向量；
第二生成单元，用于针对所述视频的各图像帧，将各视觉目标的第一特征向量以及所属图像帧的标识信息进行融合，生成各视觉目标的第二特征向量；
第三生成单元，用于分...

【专利技术属性】
技术研发人员：薛洋，王凡，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人