基于分层式混合模型的具身智能机器人的控制方法技术

技术编号:46573428 阅读:1 留言:0更新日期:2025-10-10 21:18
本发明专利技术提供一种基于分层式混合模型的具身智能机器人的控制方法,涉及具身智能领域。本发明专利技术基于协同式混合模型架构,按照ASR文本对应的任务复杂度动态分配处理路径,将简单任务分配至低延迟的本地文本小模型处理,将复杂任务分配至高精度的远程多模态大模型处理,在交互体验、响应速度、任务适应性等方面显著提升具身智能机器人的性能,同时降低计算与通信开销。此外,基于音频和文本的双重评估置信度方法,进一步确保了语音识别的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及具身智能领域,具体涉及一种基于分层式混合模型的具身智能机器人的控制方法


技术介绍

1、具身智能(embodied intelligence,ei)是人工智能与机器人学交叉的前沿领域,强调智能体通过身体与环境的动态交互实现自主学习和进化,其核心在于将感知、行动与认知深度融合‌。

2、相关技术中,具身智能交互式场景开发一般采用基于大语言模型(largelanguage model,llm)的系统架构,面向复杂环境实现“感知-决策-执行”闭环。例如,论文(高超,杨莹,陈世超,等.多模态模型驱动的具身智能研究综述[j/ol].智能感知工程,1-12[2025-06-23].),构建了一个以语音为交互媒介的具身智能系统,其核心是通过自动语音识别(automatic speech recognition,asr)获取用户指令,由多模态大模型进行环境感知、任务规划和决策生成,最终通过语音合成(text-to-speech,tts)或机器人动作执行输出结果。

3、然而,大模型的响应时间较长以及传统的tts需等待大模型输出完整文本后才本文档来自技高网...

【技术保护点】

1.一种基于分层式混合模型的具身智能机器人的控制方法,其特征在于,基于协同式混合模型架构,所述协同式混合模型架构包括本地文本小模型和远程多模态大模型;方法包括:

2.如权利要求1所述的控制方法,其特征在于,在实时检测唤醒词之前,对所述输入语音进行降噪处理。

3.如权利要求2所述的控制方法,其特征在于,在对所述输入语音进行降噪处理后,通过轻量化模型持续监听,仅在匹配到所述唤醒词时激活所述远程ASR模型;并设定若激活后,连续在预设时长内未监听到新的语音,自动退出ASR会话。

4.如权利要求1所述的控制方法,其特征在于,定义所述声纹识别结果为f1,所述第一文...

【技术特征摘要】

1.一种基于分层式混合模型的具身智能机器人的控制方法,其特征在于,基于协同式混合模型架构,所述协同式混合模型架构包括本地文本小模型和远程多模态大模型;方法包括:

2.如权利要求1所述的控制方法,其特征在于,在实时检测唤醒词之前,对所述输入语音进行降噪处理。

3.如权利要求2所述的控制方法,其特征在于,在对所述输入语音进行降噪处理后,通过轻量化模型持续监听,仅在匹配到所述唤醒词时激活所述远程asr模型;并设定若激活后,连续在预设时长内未监听到新的语音,自动退出asr会话。

4.如权利要求1所述的控制方法,其特征在于,定义所述声纹识别结果为f1,所述第一文本合理性特征或所述第二文本合理性特征为f2,所述置信度表示:

5.如权利要求1所述的控制方法,其特征在于,...

【专利技术属性】
技术研发人员:唐辛成俞阳国柯昌银周劲松洪岩陈涛杨子言金李丁乐奇钟敏静邹纯东
申请(专利权)人:徽商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1