一种基于视觉与语音识别的多模态人机交互方法及系统技术方案

技术编号:38908265 阅读:11 留言:0更新日期:2023-09-25 09:26
本发明专利技术公开了一种基于视觉与语音识别的多模态人机交互方法及系统。该人机交互方法包括如下步骤:基于量表数据库获取待测量表,其中,量表数据库中预设有多种量表,并且针对每一种量表中的题目均预设有多种回答结果,各回答结果分别对应不同的意图;在用户开始人机交互前,检测用户的人脸嘴型最佳位置;基于待测量表中的题目,通过虚拟形象与用户进行一问一答的交互过程;获取用户在交互过程中的行为反应数据;对行为反应数据进行数据处理,以获取用户的意图;基于量表数据库,获取与意图相对应的回答结果;将回答结果呈现给用户,以完成本次人机交互。该人机交互方法能够对智能化量表进行调整,可拓展性强。可拓展性强。可拓展性强。

【技术实现步骤摘要】
一种基于视觉与语音识别的多模态人机交互方法及系统


[0001]本专利技术涉及一种基于视觉与语音识别的多模态人机交互方法,同时也涉及相应的多模态人机交互系统,属于人机交互


技术介绍

[0002]随着计算机的广泛应用和互联网的普及,人们的生活逐渐走入智能时代,基于语音识别的人机交互技术广泛应用在各种智能设备上。人机交互技术是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件,人机交互界面通常是指用户可见的部分,用户通过人机交互界面与系统交流,并进行操作。
[0003]在申请号为202010555439.6的中国专利申请中,公开了一种语音输入方法、装置及电子设备,具体实现方案为:响应于获取的外设操控组件发送的语音识别接口调用请求,启动语音识别流程;对获取的语音数据进行意图识别,确定语音数据对应的操作意图;响应于获取的语音数据结束指令,向当前关联的目标应用程序发送与操作意图对应的控制指令。由此,通过这种语音输入方法,在语音输入过程中可以正常处理用户的其他输入操作,实现了同步进行语音输入与传统输入操作,提升了操作效率,改善了用户体验。
[0004]上述语音输入方法可以充分发挥多种语音识别交互技术的优势特点,降低人机交互的复杂度,提高人机交互效率,然而,应用领域较窄,扩展性较差,无法适应多样化的人机交互需求。

技术实现思路

[0005]本专利技术所要解决的首要技术问题在于提供一种基于视觉与语音识别的多模态人机交互方法。
[0006]本专利技术所要解决的另一技术问题在于提供一种基于视觉与语音识别的多模态人机交互系统。
[0007]为实现上述技术目的,本专利技术采用以下技术方案:
[0008]根据本专利技术实施例的第一方面,提供一种基于视觉与语音识别的多模态人机交互方法,包括如下步骤:
[0009]基于量表数据库获取待测量表,以用于与用户进行人机交互;其中,所述量表数据库中预设有多种量表,并且针对每一种量表中的题目均预设有多种回答结果,各所述回答结果分别对应不同的意图;
[0010]在用户开始人机交互前,检测用户的人脸嘴型最佳位置;
[0011]基于所述待测量表中的题目,通过虚拟形象与所述用户进行一问一答的交互过程;
[0012]获取所述用户在交互过程中的行为反应数据;
[0013]对所述行为反应数据进行数据处理,以获取所述用户的意图;
[0014]基于所述量表数据库,获取与所述意图相对应的回答结果;
[0015]将所述回答结果呈现给用户,以完成本次人机交互。
[0016]其中较优地,所述检测用户的人脸嘴型最佳位置,具体包括:
[0017]将视频帧输入人脸识别模型中得到人脸轮廓和嘴形轮廓的关键坐标点信息;其中,所述视频帧表示构成视频图像序列的每一帧图像;所述关键坐标点信息是预设坐标系中的坐标点数据集合,所述预设坐标系以终端屏幕左上角为平面直角坐标系原点,并基于预设的图像轮廓关键点构成;
[0018]采用视频抽帧提取关键特征,以获得人体部位坐标点信息;
[0019]对比所述关键坐标点信息和所述人体部位坐标点信息,以累计所述关键坐标点信息和所述人体部位坐标点信息之间的稳定帧次数;
[0020]当稳定帧次数达到设定阈值时认为终端摄像头处于能采集到数据的最佳位置。
[0021]其中较优地,所述采用视频抽帧提取关键特征,以获得人体部位坐标点,具体包括:
[0022]通过在输入的视频流中间隔预设数量的帧,取若干帧做抽帧处理;
[0023]对余下视频帧进行特征提取并比对特征之间的相似度;
[0024]将相似度高的判定为重复帧,舍弃重复帧,从而留下序列帧;
[0025]将留下的序列帧输人脸识别模型,并对每一帧中的人体图像进行分割识别;
[0026]对分割识别后的数据提取人脸关键点数据,转化为所述预设坐标系下的人体部位坐标点信息。
[0027]其中较优地,获取所述用户在交互过程中的行为反应数据至少包括:
[0028]基于语言采集装置获取所述用户在交互过程中的音频数据;
[0029]基于图像采集装置获取所述用户在交互过程中的表情数据;
[0030]其中,所述行为反应数据包括所述音频数据和/或所述表情数据。
[0031]其中较优地,对所述行为反应数据进行数据处理,以获取所述用户的意图至少包括:
[0032]对所述音频数据进行语音识别,以将所述音频数据转换为文本;
[0033]对所述文本进行文本识别,以提取所述文本中的关键字;
[0034]基于所述关键字确定所述用户的意图。
[0035]其中较优地,所述多模态人机交互方法还包括:
[0036]若基于所述关键字无法直接确定所述用户的意图,则寻找意思相近的词语替代;若长时间识别不到用户的意图,则在预设的最大识别时间到达时自动进行下一次意图识别。
[0037]其中较优地,所述多模态人机交互方法还包括:
[0038]若基于所述关键字确定所述用户的意图大于一个,则对多个意图进行优先级排序,并输出优先级最高的意图。
[0039]其中较优地,所述多模态人机交互方法还包括:
[0040]每隔预设时长,对所述量表数据库进行定期更新。
[0041]其中较优地,所述虚拟形象至少包括虚拟人、虚拟动植物或虚拟图片中的任意一种。
[0042]根据本专利技术实施例的第二方面,提供一种基于视觉与语音识别的多模态人机交互
系统,包括:
[0043]中央处理器,预设有量表数据库,其中,所述量表数据库中预设有多种量表,并且针对每一种量表中的题目均预设有多种回答结果,各所述回答结果分别对应不同的意图;
[0044]人脸嘴型检测单元,与所述中央处理器连接,以用于在用户开始人机交互前,检测用户的人脸嘴型最佳位置,并将检测结果发送至所述中央处理器;
[0045]虚拟形象交互单元,以所述中央处理器连接,以基于所述量表数据库获取待测量表,并在用户的人脸嘴型最佳位置检测完毕后,基于所述待测量表中的题目,通过虚拟形象与所述用户进行一问一答的交互过程;
[0046]数据采集单元,与所述虚拟形象交互单元连接,以用于获取所述用户在交互过程中的行为反应数据;
[0047]数据处理单元,与所述数据采集单元连接,以接收所述行为反应数据并进行数据处理,从而获取所述用户的意图;
[0048]结果输出单元,与所述数据处理单元连接,以基于所述量表数据库,获取与所述意图相对应的回答结果,并将所述回答结果呈现给用户。
[0049]与现有技术相比较,本专利技术具有以下的技术效果:
[0050]1.使用智能化量表通过虚拟人以一问一答的形式进行人机交互,节约了人力成本,提高了测评效率。
[0051]2.可根据用户的需求对智能化量表进行调整,可拓展性强。
[0052]3.量表数据库中针对每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉与语音识别的多模态人机交互方法,其特征在于包括:基于量表数据库获取待测量表,以用于与用户进行人机交互;其中,所述量表数据库中预设有多种量表,并且针对每一种量表中的题目均预设有多种回答结果,各所述回答结果分别对应不同的意图;在用户开始人机交互前,检测用户的人脸嘴型最佳位置;基于所述待测量表中的题目,通过虚拟形象与所述用户进行一问一答的交互过程;获取所述用户在交互过程中的行为反应数据;对所述行为反应数据进行数据处理,以获取所述用户的意图;基于所述量表数据库,获取与所述意图相对应的回答结果;将所述回答结果呈现给用户,以完成本次人机交互。2.如权利要求1所述的多模态人机交互方法,其特征在于所述检测用户的人脸嘴型最佳位置,具体包括:将视频帧输入人脸识别模型中得到人脸轮廓和嘴形轮廓的关键坐标点信息;其中,所述视频帧表示构成视频图像序列的每一帧图像;所述关键坐标点信息是预设坐标系中的坐标点数据集合,所述预设坐标系以终端屏幕左上角为平面直角坐标系原点,并基于预设的图像轮廓关键点构成;采用视频抽帧提取关键特征,以获得人体部位坐标点信息;对比所述关键坐标点信息和所述人体部位坐标点信息,以累计所述关键坐标点信息和所述人体部位坐标点信息之间的稳定帧次数;当稳定帧次数达到设定阈值时认为终端摄像头处于能采集到数据的最佳位置。3.如权利要求2所述的多模态人机交互方法,其特征在于所述采用视频抽帧提取关键特征,以获得人体部位坐标点,具体包括:通过在输入的视频流中间隔预设数量的帧,取若干帧做抽帧处理;对余下视频帧进行特征提取并比对特征之间的相似度;将相似度高的判定为重复帧,舍弃重复帧,从而留下序列帧;将留下的序列帧输人脸识别模型,并对每一帧中的人体图像进行分割识别;对分割识别后的数据提取人脸关键点数据,转化为所述预设坐标系下的人体部位坐标点信息。4.如权利要求1所述的多模态人机交互方法,其特征在于获取所述用户在交互过程中的行为反应数据,至少包括:基于语言采集装置获取所述用户在交互过程中的音频数据;基于图像采集装置获取所述用户在交互过程中的表情数据;其中...

【专利技术属性】
技术研发人员:罗川倪萍蔡龙军
申请(专利权)人:浙江脑动极光医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1