【技术实现步骤摘要】
本申请实施例涉及人工智能领域,特别涉及一种基于多模态交互的人宠对讲方法及系统。
技术介绍
1、现代社会中宠物已成为重要的情感陪伴,主人渴望突破物种语言障碍,更精准理解宠物的情绪和行为意图,但是经研究发现,目前市场上的宠物交互设备存在显著的局限性。其一,头盔式翻译器因体积庞大且佩戴不适,易导致宠物抵触;其二,移动端翻译应用虽具便携性,但需依赖近距离操作,难以实现远程双向语音交互;其三,定位类设备仅集成基础位置追踪功能,缺乏实时通信能力;其四,传统交流装置因体积臃肿、部署复杂,需通过人工训练触发预设指令,且语言库覆盖范围狭窄,难以满足个性化需求。
2、可见,现有技术中的宠物交互设备普遍呈现功能碎片化特征,用户需叠加使用多款独立设备以覆盖不同场景,导致操作冗余与资源浪费。此外,现有方案缺乏自适应学习机制,既无法通过ai技术动态优化交互逻辑,严重制约人宠自然沟通效率与情感联结深度。
技术实现思路
1、本申请的目的旨在至少能解决上述的技术缺陷之一。
2、一方面,本申请实施例提
...【技术保护点】
1.一种基于多模态交互的人宠对讲方法,其特征在于,所述方法由宠物设备端执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多模态翻译模型包括输入层、编码器和解码器,所述将所述实时反映数据输入至多模态翻译模型,得到所述目标宠物针对所述对话信号做出回应的翻译结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述编码器包括动态跨模态注意力层、稀疏局部注意力层和自适应噪声抑制,所述基于所述编码器对到所述声音特征和所述图像特征进行跨模态语义融合处理,得到融合后的特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述
...【技术特征摘要】
1.一种基于多模态交互的人宠对讲方法,其特征在于,所述方法由宠物设备端执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多模态翻译模型包括输入层、编码器和解码器,所述将所述实时反映数据输入至多模态翻译模型,得到所述目标宠物针对所述对话信号做出回应的翻译结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述编码器包括动态跨模态注意力层、稀疏局部注意力层和自适应噪声抑制,所述基于所述编码器对到所述声音特征和所述图像特征进行跨模态语义融合处理,得到融合后的特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述自适应噪声抑制层,对所述优化后的声音特征和所述图像特征进行降噪处理,得到降噪后的声音特征和降噪后的图像特征,包括:
5.根据权利要求3所述的方法,其特征在于,所述通...
【专利技术属性】
技术研发人员:钟琼艳,钟涵睿,王天翊,
申请(专利权)人:深圳市中和达汇电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。