多模态数据协同人机交互的方法、系统及车载多媒体装置制造方法及图纸

技术编号:25835917 阅读:31 留言:0更新日期:2020-10-02 14:16
本发明专利技术公开了一种多模态数据协同人机交互的方法、系统及车载多媒体装置。所述方法包括:步骤S10,通过车载多媒体装置,实时采集多模态交互数据;步骤S11,对实时采集到的每一类多模态交互数据进行特征获取,分别与预存的所述类别的多模态交互数据对应的标准特征数据进行比对,获得每一类多模态交互数据对应的用户意图;步骤S12,为所述每一类多模态交互数据对应的用户意图关联一个对应的优先级,并进行优先级分组;步骤S13,根据所述优先级分组信息,对所述各类用户意图进行优先仲裁,确定其中一个用户意图为选定的用户意图并输出。实施本发明专利技术,可以实现在人机交互方时的多模态数据的协同,从而提高车载终端的人机交互体验。

【技术实现步骤摘要】
多模态数据协同人机交互的方法、系统及车载多媒体装置
本专利技术属于车载终端领域,具体涉及一种多模态数据协同人机交互的方法、系统及车载多媒体装置。
技术介绍
当前的车载终端中的人机交互系统,通常采用语音识别系统、手势识别系统、人脸识别系统、指纹识别系统,软/硬件识别系统。但现有的这些系统都是各自独立的算法逻辑系统,无法实现数据的有效协同。例如在一些现有技术中,单一的语音识别系统只能提供与识别的关键字或关键词直接作用的内容,但无法对显示界面内容进行定位操作;而单一的手势识别系统只能提供显示界面内容中的内容进行操作,无法获取用户的关键词或关键字的信息。例如在一些例子中,只是对语音的内容进行数据分解,将分解的数据进行重新归类定义,并不能解决人机交互的协调流畅性;或者,只对当前用户所处环境及自身的生理性状态进行识别,但无法实现具体的交互内容;或者,涉及语义识别与手势识别的交互、系统需要先正确解析出语义,再解析手势动作,才能计算出用户想要的结果,例如在一些例子中,所述用户语音“测量长度”,手势动作“点击”物体一点作为测量启点,再通过手势动作“点击”物体另一点作为终点,系统才能计算出所述物体的长度,现有的技术中存在人机交互的流畅性不够问题,以及准确性不足的问题。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种多模态数据协同人机交互的方法、系统及车载多媒体装置,可以实现多模态输入数据的协同问题,以及能更准确地识别用户交互实际意图。本专利技术的一方面,提供一种多模态数据协同人机交互的方法,其包括如下步骤:步骤S10,通过车载多媒体装置,实时采集多模态交互数据,所述多模态交互数据包括用户指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据中的至少一种;步骤S11,对实时采集到的每一类多模态交互数据进行特征获取,分别与预存的所述类别的多模态交互数据对应的标准特征数据进行比对,获得每一类多模态交互数据对应的用户意图;步骤S12,为所述每一类多模态交互数据对应的用户意图关联一个对应的优先级,并进行优先级分组;步骤S13,根据所述优先级分组信息,对所述各类用户意图进行优先仲裁,确定其中一个用户意图为选定的用户意图,并输出。其中,进一步包括步骤:预先获得各类多模态交互数据对应的标准特征数据的步骤,具体包括:录制获得用户指纹螺纹图案特征,作为用户指纹数据的标准特征数据;录制获得用户脸部图像特征,作为用户脸部数据的标准特征数据;录制获得用户虹膜图案特征,作为用户虹膜数据的标准特征数据;录制获得用户声音中的声纹特征,作为用户声音数据的标准特征数据;录制获得各个关键词对应用户的唇部特征,作为用户唇部数据的标准特征数据;录制获得每个指令对应用户的手型/手势特征,作为手部数据的标准特征数据;录制获得每个指令对应用户的脸部表情特征,作为脸部表情数据的标准特征数据。其中,所述步骤S10包括:通过与所述车载多媒体装置相连接的指纹采集模块、图像采集模块、音频采集模块、触控屏模块以及按键模块来采集所述用户相应的指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据。其中,所述步骤S11进一步包括:在采集到的多模态交互数据为脸部图像、指纹图像、虹膜图像时,分别与其对应的标准特征数据进行匹配,匹配成功后分别获得脸部认证请求,指纹认证请求,虹膜认证请求;在采集到的多模态交互数据为唇部图像时,将所述唇部图图像对应的特征数据与基础唇部数据进行匹配,匹配成功后,获得其对应的唇部指令请求;在采集到的多模态交互数据为声音数据时,将所述声音数据与基础声纹数据进行匹配,匹配成功后,获得所述声音对应的关键字相应的声音指令请求;在采集到的多模态交互数据为手部数据时,将所述手部数据与基础手部数据进行匹配,获得所述手势或手型对应的手部指令请求;在采集到的多模态交互数据为脸部表情图像时,将所述脸部表情与基础表情数据进行匹配,获得所述表情对应的表情指令请求。其中,所述步骤S12进一步包括:将所述脸部认证请求、指纹认证请求、虹膜认证请求确认为身份认证意图,并关联第一组优先级;将按键请求、触控点划请求以及所述手部指令请求确认为动作意图,并关联为第二组优先级;将所述唇部指令请求、声音指令请求确认为语义意图,并关联为第三组优先级;将所述表情指令请求确认为情绪意图,并关联为第四组优先级;其中,第一组优先级、第二组优先级、第三组优先级、第四组优先级的优先级别从高至低排列;每一组优先级中的各类请求对应有不同的优先权。其中,所述步骤S13进一步包括:在预定时间内,对所获得的各类别意图进行优先级仲裁,将具有最高优先级的请求所对应的用户意图为选定的用户意图,并输出所述用户意图对应的指令请求。其中,所述步骤S13进一步包括:如果在输出所述用户意图对应指令请求的过程中,实时检测到出现更高优先级的用户意图时,则中断当前的输出。相应地,本专利技术实施例的另一方面,还提供一种多模态数据协同人机交互的系统,其包括:多模态交互数据采集单元,用于通过车载多媒体装置,实时采集多模态交互数据,所述多模态交互数据包括用户指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据中的至少一种;匹配处理单元,用于对实时采集到的每一类多模态交互数据进行特征获取,分别与预存的所述类别的多模态交互数据对应的标准特征数据进行比对,获得每一类多模态交互数据对应的用户意图;优先级分组关联单元,用于为所述每一类多模态交互数据对应的用户意图关联一个对应的优先级,并进行优先级分组;用户意图仲裁单元,用于根据所述优先级分组信息,对所述各类用户意图进行优先仲裁,确定其中一个用户意图为选定的用户意图,并输出。其中,进一步包括:标准特征数据获取单元,用于预先获得各类多模态交互数据对应的标准特征数据,所述标准特征数据获取单元具体采用下述方式获取标准特征数据:录制获得用户指纹螺纹图案特征,作为用户指纹数据的标准特征数据;录制获得用户脸部图像特征,作为用户脸部数据的标准特征数据;录制获得用户虹膜图案特征,作为用户虹膜数据的标准特征数据;录制获得用户声音中的声纹特征,作为用户声音数据的标准特征数据;录制获得各个关键词对应用户的唇部特征,作为用户唇部数据的标准特征数据;录制获得每个指令对应用户的手型/手势特征,作为手部数据的标准特征数据;录制获得每个指令对应用户的脸部表情特征,作为脸部表情数据的标准特征数据。其中,所述多模态数据协同人机交互的装置连接有指纹采集模块、图像采集模块、音频采集模块、触控屏模块以及按键模块,用于采集所述用户相应的指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据。其中,所述匹配处理单元进一步包括:...

【技术保护点】
1.一种多模态数据协同人机交互的方法,其特征在于,包括如下步骤:/n步骤S10,通过车载多媒体装置,实时采集多模态交互数据,所述多模态交互数据包括用户指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据中的至少一种;/n步骤S11,对实时采集到的每一类多模态交互数据进行特征获取,分别与预存的该类别的多模态交互数据对应的标准特征数据进行比对,获得每一类多模态交互数据对应的用户意图;/n步骤S12,为所述每一类多模态交互数据对应的用户意图关联一个对应的优先级,并进行优先级分组;/n步骤S13,根据所述优先级分组信息,对所述各类用户意图进行优先仲裁,确定其中一个用户意图为选定的用户意图并输出。/n

【技术特征摘要】
1.一种多模态数据协同人机交互的方法,其特征在于,包括如下步骤:
步骤S10,通过车载多媒体装置,实时采集多模态交互数据,所述多模态交互数据包括用户指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据中的至少一种;
步骤S11,对实时采集到的每一类多模态交互数据进行特征获取,分别与预存的该类别的多模态交互数据对应的标准特征数据进行比对,获得每一类多模态交互数据对应的用户意图;
步骤S12,为所述每一类多模态交互数据对应的用户意图关联一个对应的优先级,并进行优先级分组;
步骤S13,根据所述优先级分组信息,对所述各类用户意图进行优先仲裁,确定其中一个用户意图为选定的用户意图并输出。


2.如权利要求1所述的方法,其特征在于,进一步包括步骤:
预先获得各类多模态交互数据对应的标准特征数据的步骤,具体包括:
录制获得用户指纹螺纹图案特征,作为用户指纹数据的标准特征数据;
录制获得用户脸部图像特征,作为用户脸部数据的标准特征数据;
录制获得用户虹膜图案特征,作为用户虹膜数据的标准特征数据;
录制获得用户声音中的声纹特征,作为用户声音数据的标准特征数据;
录制获得各个关键词对应用户的唇部特征,作为用户唇部数据的标准特征数据;
录制获得每个指令对应用户的手型/手势特征,作为手部数据的标准特征数据;
录制获得每个指令对应用户的脸部表情特征,作为脸部表情数据的标准特征数据。


3.如权利要求2所述的方法,其特征在于,所述步骤S10包括:
通过与所述车载多媒体装置相连接的指纹采集模块、图像采集模块、音频采集模块、触控屏模块以及按键模块来采集所述用户相应的指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据。


4.如权利要求1至3任一项所述的方法,其特征在于,所述步骤S11进一步包括:
在采集到的多模态交互数据为脸部图像、指纹图像、虹膜图像时,分别与其对应的标准特征数据进行匹配,匹配成功后分别获得脸部认证请求,指纹认证请求,虹膜认证请求;
在采集到的多模态交互数据为唇部图像时,将所述唇部图图像对应的特征数据与基础唇部数据进行匹配,匹配成功后,获得其对应的唇部指令请求;
在采集到的多模态交互数据为声音数据时,将所述声音数据与基础声纹数据进行匹配,匹配成功后,获得所述声音对应的关键字相应的声音指令请求;
在采集到的多模态交互数据为手部数据时,将所述手部数据与基础手部数据进行匹配,获得所述手势或手型对应的手部指令请求;
在采集到的多模态交互数据为脸部表情图像时,将所述脸部表情与基础表情数据进行匹配,获得所述表情对应的表情指令请求。


5.如权利要求4所述的方法,其特征在于,所述步骤S12进一步包括:
将所述脸部认证请求、指纹认证请求、虹膜认证请求确认为身份认证意图,并关联第一组优先级;
将按键请求、触控点划请求以及所述手部指令请求确认为动作意图,并关联为第二组优先级;
将所述唇部指令请求、声音指令请求确认为语义意图,并关联为第三组优先级;
将所述表情指令请求确认为情绪意图,并关联为第四组优先级;
其中,第一组优先级、第二组优先级、第三组优先级、第四组优先级的优先级别从高至低排列;每一组优先级中的各类请求对应有不同的优先权。


6.如权利要求5所述的方法,其特征在于,所述步骤S13进一步包括:
在预定时间内,对所获得的各类别意图进行优先级仲裁,将具有最高优先级的请求所对应的用户意图为选定的用户意图,并输出所述用户意图对应的指令请求。


7.如权利要求6所述的方法,其特征在于,所述步骤S13进一步包括:
如果在输出所述用户意图对应指令请求的过程中,实时检测到出现更高优先级的用户意图时,则中断当前的输出。


8.一种多模态数据协同人机交互的系统,其特征在于,包括如下步骤:
多模态交互数据采集单元,用于通过车载多媒体装置,实时采集多模态交互数据,所述多模态交互数据包括用户指纹数据、脸部数据、声波数据、手部数据、车载终端按键数据、车载屏幕触控数据中的至少一种;...

【专利技术属性】
技术研发人员:冉光伟张莹王金华张宗煜
申请(专利权)人:广州汽车集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1