智能眼镜的控制方法、装置、设备以及存储介质制造方法及图纸

技术编号：37991885 阅读：15 留言：0更新日期：2023-06-30 10:06

本公开提供了智能眼镜的控制方法、装置、设备以及存储介质，涉及图像处理技术领域，尤其涉及人工智能、语音技术以及智能搜索等技术领域。具体实现方案为：通过智能眼镜的摄像头实时采集图像，并存储至图像序列中；响应于采集到语音信息，获取智能眼镜的移动状态；基于语音信息和移动状态从图像序列中选择用户感兴趣的目标图像；获取目标图像中各候选对象的标记；将各候选对象的标记展示在目标图像中；基于各候选对象的标记与用户进行语音交互，得到各候选对象中用户感兴趣的目标对象。本公开实施例中基于用户的语音信息可达到对精细化图像识别的目的，从而降低用户在智能眼镜进行搜索的复杂度以及操作成本，提升用户的使用体验。验。验。

全部详细技术资料下载

【技术实现步骤摘要】
智能眼镜的控制方法、装置、设备以及存储介质

[0001]本公开涉及图像处理
，尤其涉及人工智能、语音技术以及智能搜索等

技术介绍

[0002]近年来，随着人工智能，深度学习等技术的发展，越来越多的智能设备出现在人们的生活中。其中，智能眼镜，是指“像智能手机一样，具有独立的操作系统”。智能眼镜的出现给我们的生活带来改变，可以使用智能眼镜进行随拍，导航等功能。但智能眼镜无法像智能手机一样可以触屏操作，如何控制智能眼镜是业界关心的问题。

技术实现思路

[0003]本公开提供了一种智能眼镜的控制方法、装置、设备以及存储介质。
[0004]根据本公开的一方面，提供了一种智能眼镜的控制方法，包括：
[0005]通过智能眼镜的摄像头实时采集图像，并存储至图像序列中；
[0006]响应于采集到语音信息，获取智能眼镜的移动状态；
[0007]基于语音信息和移动状态从图像序列中选择用户感兴趣的目标图像；
[0008]获取目标图像中各候选对象的标记；
[0009]将各...

【技术保护点】

【技术特征摘要】
1.一种智能眼镜的控制方法，包括：通过智能眼镜的摄像头实时采集图像，并存储至图像序列中；响应于采集到语音信息，获取智能眼镜的移动状态；基于所述语音信息和所述移动状态从所述图像序列中选择用户感兴趣的目标图像；获取所述目标图像中各候选对象的标记；将各候选对象的标记展示在所述目标图像中；基于各候选对象的标记与用户进行语音交互，得到各候选对象中用户感兴趣的目标对象。2.根据权利要求1所述的方法，其中，所述基于所述语音信息和所述移动状态从所述图像序列中选择用户感兴趣的目标图像，包括：在所述移动状态表示所述智能眼镜在采集所述语音信息的期间保持静止状态的情况下，确定图像序列中图像内容的变化量；在所述图像内容的变化量小于预设阈值的情况下，获取所述图像序列中的最后一帧图像，得到所述目标图像。3.根据权利要求2所述的方法，还包括：在所述图像内容的变化量大于或等于预设阈值的情况下，基于所述语音信息从所述图像序列中选择与所述语音信息对应的图像，得到所述目标图像。4.根据权利要求1所述的方法，其中，所述基于所述语音信息和所述移动状态从所述图像序列中选择用户感兴趣的目标图像，包括：在所述移动状态指示所述智能眼镜的位置或姿势发生变化的情况下，基于所述语音信息从所述图像序列中选择与所述语音信息对应的图像，得到所述目标图像。5.根据权利要求3或4所述的方法，其中，所述基于所述语音信息从所述图像序列中选择与所述语音信息对应的图像，得到所述目标图像，包括：在所述语音信息包括一条语音指令的情况下，确定所述一条语音指令的开始时间点；从所述图像序列中选择采集时间点距离所述一条语音指令的开始时间点最近的图像，得到所述目标图像。6.根据权利要求3或4所述的方法，其中，所述基于所述语音信息从所述图像序列中选择与所述语音信息对应的图像，得到所述目标图像，包括：在所述语音信息包括多条语音指令的情况下，确定最后一条语音指令的开始时间点；从所述图像序列中选择采集时间点距离所述最后一条语音指令的开始时间点最近的图像，得到所述目标图像。7.根据权利要求1
‑
6中任一项所述的方法，其中，针对每个候选对象，所述候选对象的标记，包括以下中的至少一种：所述候选对象的类别、所述候选对象在所述目标图像中的位置信息、所述候选对象中包括的文本信息、所述候选对象的扩展信息。8.根据权利要求1
‑
7中任一项所述的方法，其中，所述基于各候选对象的标记与用户进行语音交互，得到各候选对象中用户感兴趣的目标对象，包括：获取需要匹配目标对象的语音指令中的目标关键词；将所述目标关键词与各候选对象的标记中的关键词进行匹配操作；
获取匹配到所述目标关键词的标记对应的候选对象，得到所述目标对象。9.根据权利要求8所述的方法，还包括：在所述目标对象中包括多个候选对象的情况下，基于所述智能眼镜的语音交互功能发出提示；响应所述提示采集用户语音；基于所述用户语音从所述多个候选对象中，选择出最终的目标对象。10.根据权利要求1
‑
9中任一项所述的方法，其中，所述将各候选对象的标记展示在所述目标图像中，包括：在所述智能眼镜的显示区域中的局部指定区域显示具有各候选对象的标记的所述目标图像；以及，将所述智能眼镜的摄像头实时采集的图像展示在所述显示区域的所述局部指定区域之外的区域。11.根据权利要求1
‑
10中任一项所述的方法，还包括：响应于基于语音交互功能采集到的图像处理指令，对所述目标对象执行所述图像处理指令对应的操作。12.根据权利要求1
‑
11中任一项所述的方法，其中，所述目标图像的图像质量满足图像质量要求。13.根据权利要求1
‑
11中任一项所述的方法，其中，在所述目标图像的图像质量不满足图像质量要求的情况下，输出提示信息。14.根据权利要求1
‑
13中任一项所述的方法，在所述响应于采集到语音信息，获取智能眼镜的移动状态之前，还包括：在所述智能眼镜的移动速度低于速度阈值的情况下，自动开启语音交互功能。15.一种智能眼镜的控制装置，包括：图像采集模块，用于通过智能眼镜的摄像头实时采集图像，并存储至图像序列中；状态处理模块，用于响应于采集到语音信息，获取智能眼镜的移动状态；第一确定模块，用于基于所述语音信息和所述移动状态从所述图像序列中选择用户感兴趣的目标图像；获取模块，用于获取所述目标图像中各候选对象的标记；展示模块，用于将各候选对象的标...

【专利技术属性】
技术研发人员：刘俊启，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人