一种智能眼镜AI语音交互方法技术

技术编号:46631477 阅读:6 留言:0更新日期:2025-10-14 21:30
本申请提供一种智能眼镜AI语音交互方法,包括:同时采集用户手势图像和语音信号,获取用户历史交互记录,提取手势图像的关键点坐标和指向方向信息,并获取手部距离信息,生成手势运动路径,同时提取语音信号的频谱信息和语调峰值,形成语音节拍序列;提取手势语音融合数据的空间语义模式,根据手势运动路径的指向坐标与语音节拍序列的语调峰值识别用户指向指令的核心物体;识别指向指令核心物体后,结合空间语义模式和用户历史交互记录确定用户意图;将完整意图解析结果输出到智能眼镜显示模块以执行相应操作,同时反馈到采集模块调整下一次捕捉参数包括采集频率和识别敏感度,提高响应速度和准确率。

【技术实现步骤摘要】

本专利技术涉及信息,尤其涉及一种智能眼镜ai语音交互方法。


技术介绍

1、智能眼镜作为可穿戴设备的重要分支,通过融合语音、视觉和手势交互,为用户提供沉浸式体验,在教育、医疗、工业维护等领域展现出关键价值。其核心在于理解用户自然交互意图,捕捉语音和动作的协同表达,以实现高效、直观的指令执行。然而,现有方法在处理多模态交互时存在显著局限,主要表现为对动态交互中语音与手势的实时协同分析不足。许多系统依赖预定义的手势模板或固定的语音指令,导致在复杂场景下无法准确识别用户意图,尤其当用户行为具有个性化,系统常常误判或反应迟缓。核心挑战在于如何精准捕捉和融合用户手势轨迹与语音节奏的动态一致性。手势轨迹的多样性使得系统需要实时跟踪手指移动的方向和速度,并将其与语音的音调变化和停顿节奏进行匹配。例如,当用户指着一个物体说“放大这个”,手势的快速划动难以被准确捕捉,进而导致系统无法正确理解“这个”所指的具体物体。进一步地,这种动态一致性的缺失直接影响多模态信息的融合效率,因为手势与语音的时序关系未被充分解析,系统难以在短时间内综合两者的语义,形成完整的用户意图。因此,如何在本文档来自技高网...

【技术保护点】

1.一种智能眼镜AI语音交互方法,其特征在于,包括:

2.根据权利要求1所述的智能眼镜AI语音交互方法,其特征在于,所述采集用户手势图像和语音信号,获取用户历史交互记录,提取所述手势图像的关键点坐标和指向方向信息,生成手势运动路径,提取所述语音信号的频谱信息和语调峰值,形成语音节拍序列,包括:

3.根据权利要求1所述的智能眼镜AI语音交互方法,其特征在于,所述根据所述动态一致性分数高于预设阈值,融合所述手势运动路径的指向方向信息与所述语音节拍序列的关键词位置,生成手势语音融合数据,包括:

4.根据权利要求1所述的智能眼镜AI语音交互方法,其特征在于,所...

【技术特征摘要】

1.一种智能眼镜ai语音交互方法,其特征在于,包括:

2.根据权利要求1所述的智能眼镜ai语音交互方法,其特征在于,所述采集用户手势图像和语音信号,获取用户历史交互记录,提取所述手势图像的关键点坐标和指向方向信息,生成手势运动路径,提取所述语音信号的频谱信息和语调峰值,形成语音节拍序列,包括:

3.根据权利要求1所述的智能眼镜ai语音交互方法,其特征在于,所述根据所述动态一致性分数高于预设阈值,融合所述手势运动路径的指向方向信息与所述语音节拍序列的关键词位置,生成手势语音融合数据,包括:

4.根据权利要求1所述的智能眼镜ai语音交互方法,其特征在于,所述对所述手势运动路径和所述语音节拍序列进行时序同步处理,识别手势动作与语音发声的时间关联性,提取所述手势运动路径中的速度变化节点和所述语音节拍序列中的停顿点,通过时间戳对齐,生成动态一致性分数,包括:

5.根据权利要求4所述的智...

【专利技术属性】
技术研发人员:高锦锋
申请(专利权)人:深圳市雅为智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1