一种多模态交互实现方法、装置、系统及计算机可读存储介质制造方法及图纸

技术编号:38420386 阅读:11 留言:0更新日期:2023-08-07 11:21
一种多模态交互实现方法、装置、系统及计算机可读存储介质,所述方法包括:触发启动数据输入,获取输入数据;基于所述输入数据,识别所述输入数据对应的用户意图;触发启动图片数据输入;基于获取的图片数据,进行指尖识别,结合所述用户意图确定新用户意图;基于所述新用户意图,执行相应操作。执行相应操作。执行相应操作。

【技术实现步骤摘要】
一种多模态交互实现方法、装置、系统及计算机可读存储介质


[0001]本公开涉及智能设备的交互
,尤其涉及一种多模态交互实现方法、装置、系统及计算机可读存储介质。

技术介绍

[0002]随着智能设备的广泛应用,智能设备的交互技术得到了长足的发展,例如各种移动终端的智能语音助手成为人们常用的交互方式。在现有技术中,用户可以使用移动终端的语音助手功能与机器助手进行语音交互,使机器助手可以在用户的语音控制下完成对移动终端的各种操作,其中也包括对移动终端上的应用程序的各种操作,如智能语音助手在特定的语言或者操作进行唤醒之后进行交互,例如通过发“Hi,siri”的特定的语音来开启智能语音助手,或者通过控制按钮来开启智能语音助手,例如设置日程、开启闹钟、设置代办事项、打开应用和拨打电话等等。AI语音助手功能俨然成为智能设备的刚需功能、如智能手机、智能车载、智能音箱、智能平板电脑、智能台灯、智能手表等。
[0003]目前现有技术中,AI语音助手以语音输入/输出的交互方式为主、交互模式单一、产品形态封闭导致场景功能有限,这极大限制了语音助手类产品的用户体验及商业价值。

技术实现思路

[0004]针对上述技术问题,本公开提出一种多模态交互实现方法、装置、系统及计算机可读存储介质。为在AI语音助手场景下实现指尖交互技术,使得AI语音助手在原先只支持AI语音对话的基础上扩展指尖查词、指尖点读、指尖翻译、指尖批改等功能,支持指尖交互技术的新AI语音助手(简称“新AI语音助手”)拥有明显更好的智能度,可以在AI平板、AI台灯、手机等众多智能设备上给用户带来更大的使用便利。
[0005]为此,包括如下几方面:第一方面,一种多模态交互实现方法,包括:步骤1:触发启动数据输入,获取输入数据;步骤2:基于所述输入数据,识别所述输入数据对应的用户意图;步骤3:触发启动图片数据输入;步骤4:基于获取的图片数据,进行指尖识别,结合所述用户意图确定新用户意图;步骤5:基于所述新用户意图,执行相应操作。
[0006]进一步,所述触发启动数据输入包括手动触发或语音触发。
[0007]进一步,所述触发启动图片数据输入包括手动触发或语音触发。
[0008]进一步,所述数据输入既包括文本数据的输入,也包括语音数据的输入。
[0009]进一步,在输入语音时,通过语音活动性检查VAD技术判断一次语音输入的开始与结束。
[0010]进一步,生成所述语音数据的输入对应的音频数据,识别所述音频数据对应的语音意图,所述语音意图即为所述用户意图。
[0011]进一步,在输入文本时,识别所述文本数据对应的文本意图,所述文本意图即为所述用户意图。
[0012]进一步,所述基于所述音频数据,识别所述音频数据对应的语音意图包括:通过自动语音识别ASR技术把所述音频数据转换为文本数据;通过NLU技术分析识别所述文本数据的所述语音意图。
[0013]进一步,触发启动数据输入的同时,触发启动图片数据输入;语音识别与指尖识别同时进行;或基于所述用户意图,触发启动图片数据输入。
[0014]进一步,所述基于获取的图片数据,进行指尖识别包括:通过视觉动态检测技术判断图片数据输入开始与结束,获取生成所述图片数据;识别所述图片数据中的指尖;确定指尖坐标;根据所述指尖坐标,对所述图片数据裁切,确定最终图片数据;识别所述最终图片数据中的文本。
[0015]进一步,所述基于所述新用户意图,执行相应操作包括:将识别出的所述最终图片数据中的文本作为所述新用户意图的输入数据;根据所述新用户意图,进行相应的数据生成和数据输出。
[0016]进一步,所述相应操作包括:字词典查询;文字识别;文字翻译;或文本搜索。
[0017]第二方面,一种多模态交互实现装置,包括:输入启动模块,用于触发启动数据输入,获取输入数据;意图识别模块,用于基于所述输入数据,识别所述输入数据对应的用户意图;所述输入启动模块,还用于触发启动图片数据输入;图片识别模块,用于基于获取的图片数据,进行指尖识别,结合所述用户意图确定新用户意图;操作执行模块,用于基于所述新用户意图,执行相应操作。
[0018]第三方面,一种多模态交互实现系统,所述系统包括处理器和存储器,所述处理器执行所述存储器中存储的计算机指令,实现前述第一方面中的任一所述方法。
[0019]第四方面,一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机系统执行前述第一方面中的任一所述方法。
[0020]本公开公开了一种多模态交互实现方法、装置、系统和计算机可读存储介质。其中该一种多模态交互实现方法,包括:触发启动数据输入,获取输入数据;基于所述输入数据,识别所述输入数据对应的用户意图;触发启动图片数据输入;基于获取的图片数据,进行指尖识别,结合所述用户意图确定新用户意图;基于所述新用户意图,执行相应操作。
[0021]本公开的技术方案具有如下有益效果:(1)多模态输入:现有AI语音助手只支持语音输入;新AI语音助手支持语音输入和图片输入,语音输入负责常见的功能指令控制和语音搜索;图片输入配合视觉识别技术/图片分析技术/文本分析技术等视觉/图片分析/数据处理技术,负责实现指尖查/读绘本/作业批改/作业录入/做作业等儿童垂直场景类功能;(2)多模态输出:现有AI语音助手只支持文本输出,且输出文本来自于数据检索,内容单一且生硬,数据更新也无法保证实效性;通过AIGC生成技术和现有内容相结合,从传统文本输出,扩展为文本+图片+音频的多模态输出方式,提升输出内容的价值和体验;(3)方案兼容性强:本方案中支持语音+图片的创新设计兼容原语音交互的方式,
属于方案升级和创新;(4)方案扩展性强:图片和语音+图片的创新设计运用到了多个AI技术和数据处理技术,且在方案中相互解耦。通过可以随意排列组合且可以随时加入新技术的优势,可以孵化和创新出更多垂直场景的功能,带来创新性产品,极大提升用户体验和商业价值;(5)内容数据从封闭域转为开放域:原内容数据靠数据库和检索实现,内容单一且没有实效性;AIGC生成技术是基于大数据生成,内容生成更加丰富,支持个性化输出,以及可以覆盖大数据实时数据训练更新,内容数据转型成开放域,能够带来极大的商业模式和价值变化。
[0022]上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0023]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1:本公开一个实施例的一种多模态交互实现方法流程图;图2:本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态交互实现方法,包括:步骤1:触发启动数据输入,获取输入数据;步骤2:基于所述输入数据,识别所述输入数据对应的用户意图;步骤3:触发启动图片数据输入;步骤4:基于获取的图片数据,进行指尖识别,结合所述用户意图确定新用户意图;步骤5:基于所述新用户意图,执行相应操作。2.根据权利要求1所述的方法,所述触发启动数据输入和触发启动图片数据输入包括手动触发或语音触发。3.根据权利要求1所述的方法,所述数据输入既包括文本数据的输入,也包括语音数据的输入。4.根据权利要求3所述的方法,在输入语音时,通过语音活动性检查VAD技术判断一次语音输入的开始与结束。5.根据权利要求3所述的方法,生成所述语音数据的输入对应的音频数据,识别所述音频数据对应的语音意图,所述语音意图即为所述用户意图。6.根据权利要求3所述的方法,在输入文本时,识别所述文本数据对应的文本意图,所述文本意图即为所述用户意图。7.根据权利要求5所述的方法,所述基于所述音频数...

【专利技术属性】
技术研发人员:刘军
申请(专利权)人:北京果枝众合科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1