一种多模态交互实现方法、装置、系统及计算机可读存储介质制造方法及图纸

技术编号：38420386 阅读：11 留言：0更新日期：2023-08-07 11:21

一种多模态交互实现方法、装置、系统及计算机可读存储介质，所述方法包括：触发启动数据输入，获取输入数据；基于所述输入数据，识别所述输入数据对应的用户意图；触发启动图片数据输入；基于获取的图片数据，进行指尖识别，结合所述用户意图确定新用户意图；基于所述新用户意图，执行相应操作。执行相应操作。执行相应操作。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态交互实现方法、装置、系统及计算机可读存储介质

[0001]本公开涉及智能设备的交互
，尤其涉及一种多模态交互实现方法、装置、系统及计算机可读存储介质。

技术介绍

[0002]随着智能设备的广泛应用，智能设备的交互技术得到了长足的发展，例如各种移动终端的智能语音助手成为人们常用的交互方式。在现有技术中，用户可以使用移动终端的语音助手功能与机器助手进行语音交互，使机器助手可以在用户的语音控制下完成对移动终端的各种操作，其中也包括对移动终端上的应用程序的各种操作，如智能语音助手在特定的语言或者操作进行唤醒之后进行交互，例如通过发“Hi，siri”的特定的语音来开启智能语音助手，或者通过控制按钮来开启智能语音助手，例如设置日程、开启闹钟、设置代办事项、打开应用和拨打电话等等。AI语音助手功能俨然成为智能设备的刚需功能、如智能手机、智能车载、智能音箱、智能平板电脑、智能台灯、智能手表等。
[0003]目前现有技术中，AI语音助手以语音输入/输出的交互方式为主、交互模式单一、产品形态封闭导致场景功能有限，这极大限制了语音助手类产品的用户体验及商业价值。

技术实现思路

[0004]针对上述技术问题，本公开提出一种多模态交互实现方法、装置、系统及计算机可读存储介质。为在AI语音助手场景下实现指尖交互技术，使得AI语音助手在原先只支持AI语音对话的基础上扩展指尖查词、指尖点读、指尖翻译、指尖批改等功能，支持指尖交互技术的新AI语音助手（简称“新AI语音助手”）拥有明显更好的智能度，可以在AI平板...

【技术保护点】

【技术特征摘要】
1.一种多模态交互实现方法，包括：步骤1：触发启动数据输入，获取输入数据；步骤2：基于所述输入数据，识别所述输入数据对应的用户意图；步骤3：触发启动图片数据输入；步骤4：基于获取的图片数据，进行指尖识别，结合所述用户意图确定新用户意图；步骤5：基于所述新用户意图，执行相应操作。2.根据权利要求1所述的方法，所述触发启动数据输入和触发启动图片数据输入包括手动触发或语音触发。3.根据权利要求1所述的方法，所述数据输入既包括文本数据的输入，也包括语音数据的输入。4.根据权利要求3所述的方法，在输入语音时，通过语音活动性检查VAD技术判断一次语音输入的开始与结束。5.根据权利要求3所述的方法，生成所述语音数据的输入对应的音频数据，识别所述音频数据对应的语音意图，所述语音意图即为所述用户意图。6.根据权利要求3所述的方法，在输入文本时，识别所述文本数据对应的文本意图，所述文本意图即为所述用户意图。7.根据权利要求5所述的方法，所述基于所述音频数...

【专利技术属性】
技术研发人员：刘军，
申请(专利权)人：北京果枝众合科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人