一种基于多模态交互的人宠对讲方法及系统技术方案

技术编号：46359823 阅读：4 留言：0更新日期：2025-09-15 12:38

本申请公开了一种基于多模态交互的人宠对讲方法及系统，涉及人工智能领域。该方法包括：接收用户设备端针对目标宠物发送的对话信号，根据本地语言库确定对话信号对应的动物语音信息，本地语言库包括每种对话信号与动物语音信息之间的对应关系；获取目标宠物针对对话信号的实时反映数据，实时反映数据包括目标宠物的声音数据、动作图像数据和环境数据；将实时反映数据输入至多模态翻译模型，得到目标宠物针对对话信号做出回应的翻译结果，并将翻译结果发送至用户设备。本申请实施例中翻译结果中整合了声音数据、动作数据和环境数据，实现了数据的高效融合，提升了翻译可靠性的同时解决了低置信度误判率高的问题，提升了人宠交互的准确性与适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能领域，特别涉及一种基于多模态交互的人宠对讲方法及系统。

技术介绍

1、现代社会中宠物已成为重要的情感陪伴，主人渴望突破物种语言障碍，更精准理解宠物的情绪和行为意图，但是经研究发现，目前市场上的宠物交互设备存在显著的局限性。其一，头盔式翻译器因体积庞大且佩戴不适，易导致宠物抵触；其二，移动端翻译应用虽具便携性，但需依赖近距离操作，难以实现远程双向语音交互；其三，定位类设备仅集成基础位置追踪功能，缺乏实时通信能力；其四，传统交流装置因体积臃肿、部署复杂，需通过人工训练触发预设指令，且语言库覆盖范围狭窄，难以满足个性化需求。

2、可见，现有技术中的宠物交互设备普遍呈现功能碎片化特征，用户需叠加使用多款独立设备以覆盖不同场景，导致操作冗余与资源浪费。此外，现有方案缺乏自适应学习机制，既无法通过ai技术动态优化交互逻辑，严重制约人宠自然沟通效率与情感联结深度。

技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一。

2、一方面，本申请实施例提...

【技术保护点】

1.一种基于多模态交互的人宠对讲方法，其特征在于，所述方法由宠物设备端执行，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态翻译模型包括输入层、编码器和解码器，所述将所述实时反映数据输入至多模态翻译模型，得到所述目标宠物针对所述对话信号做出回应的翻译结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述编码器包括动态跨模态注意力层、稀疏局部注意力层和自适应噪声抑制，所述基于所述编码器对到所述声音特征和所述图像特征进行跨模态语义融合处理，得到融合后的特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述自适应噪声抑...

【技术特征摘要】

1.一种基于多模态交互的人宠对讲方法，其特征在于，所述方法由宠物设备端执行，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述自适应噪声抑制层，对所述优化后的声音特征和所述图像特征进行降噪处理，得到降噪后的声音特征和降噪后的图像特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述通...

【专利技术属性】
技术研发人员：钟琼艳，钟涵睿，王天翊，
申请(专利权)人：深圳市中和达汇电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人