一种基于视觉与语音识别的多模态人机交互方法及系统技术方案

技术编号：38908265 阅读：11 留言：0更新日期：2023-09-25 09:26

本发明专利技术公开了一种基于视觉与语音识别的多模态人机交互方法及系统。该人机交互方法包括如下步骤：基于量表数据库获取待测量表，其中，量表数据库中预设有多种量表，并且针对每一种量表中的题目均预设有多种回答结果，各回答结果分别对应不同的意图；在用户开始人机交互前，检测用户的人脸嘴型最佳位置；基于待测量表中的题目，通过虚拟形象与用户进行一问一答的交互过程；获取用户在交互过程中的行为反应数据；对行为反应数据进行数据处理，以获取用户的意图；基于量表数据库，获取与意图相对应的回答结果；将回答结果呈现给用户，以完成本次人机交互。该人机交互方法能够对智能化量表进行调整，可拓展性强。可拓展性强。可拓展性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉与语音识别的多模态人机交互方法及系统

[0001]本专利技术涉及一种基于视觉与语音识别的多模态人机交互方法，同时也涉及相应的多模态人机交互系统，属于人机交互

技术介绍

[0002]随着计算机的广泛应用和互联网的普及，人们的生活逐渐走入智能时代，基于语音识别的人机交互技术广泛应用在各种智能设备上。人机交互技术是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件，人机交互界面通常是指用户可见的部分，用户通过人机交互界面与系统交流，并进行操作。
[0003]在申请号为202010555439.6的中国专利申请中，公开了一种语音输入方法、装置及电子设备，具体实现方案为：响应于获取的外设操控组件发送的语音识别接口调用请求，启动语音识别流程；对获取的语音数据进行意图识别，确定语音数据对应的操作意图；响应于获取的语音数据结束指令，向当前关联的目标应用程序发送与操作意图对应的控制指令。由此，通过这种语音输入方法，在语音输入过程中可以正常处理用户的其他输入操作，实现了同步进行语音输入与传统输入操作，提升了操作效率，改善了用户体验。
[0004]上述语音输入方法可以充分发挥多种语音识别交互技术的优势特点，降低人机交互的复杂度，提高人机交互效率，然而，应用领域较窄，扩展性较差，无法适应多样化的人机交互需求。

技术实现思路

[0005]本专利技术所要解决的首要技术问题在于提供一种基于视觉与语音识别的多模态人机交互方法。
[0006]本专...

【技术保护点】

【技术特征摘要】
1.一种基于视觉与语音识别的多模态人机交互方法，其特征在于包括：基于量表数据库获取待测量表，以用于与用户进行人机交互；其中，所述量表数据库中预设有多种量表，并且针对每一种量表中的题目均预设有多种回答结果，各所述回答结果分别对应不同的意图；在用户开始人机交互前，检测用户的人脸嘴型最佳位置；基于所述待测量表中的题目，通过虚拟形象与所述用户进行一问一答的交互过程；获取所述用户在交互过程中的行为反应数据；对所述行为反应数据进行数据处理，以获取所述用户的意图；基于所述量表数据库，获取与所述意图相对应的回答结果；将所述回答结果呈现给用户，以完成本次人机交互。2.如权利要求1所述的多模态人机交互方法，其特征在于所述检测用户的人脸嘴型最佳位置，具体包括：将视频帧输入人脸识别模型中得到人脸轮廓和嘴形轮廓的关键坐标点信息；其中，所述视频帧表示构成视频图像序列的每一帧图像；所述关键坐标点信息是预设坐标系中的坐标点数据集合，所述预设坐标系以终端屏幕左上角为平面直角坐标系原点，并基于预设的图像轮廓关键点构成；采用视频抽帧提取关键特征，以获得人体部位坐标点信息；对比所述关键坐标点信息和所述人体部位坐标点信息，以累计所述关键坐标点信息和所述人体部位坐标点信息之间的稳定帧次数；当稳定帧次数达到设定阈值时认为终端摄像头处于能采集到数据的最佳位置。3.如权利要求2所述的多模态人机交互方法，其特征在于所述采用视频抽帧提取关键特征，以获得人体部位坐标点，具体包括：通过在输入的视频流中间隔预设数量的帧，取若干帧做抽帧处理；对余下视频帧进行特征提取并比对特征之间的相似度；将相似度高的判定为重复帧，舍弃重复帧，从而留下序列帧；将留下的序列帧输人脸识别模型，并对每一帧中的人体图像进行分割识别；对分割识别后的数据提取人脸关键点数据，转化为所述预设坐标系下的人体部位坐标点信息。4.如权利要求1所述的多模态人机交互方法，其特征在于获取所述用户在交互过程中的行为反应数据，至少包括：基于语言采集装置获取所述用户在交互过程中的音频数据；基于图像采集装置获取所述用户在交互过程中的表情数据；其中...

【专利技术属性】
技术研发人员：罗川，倪萍，蔡龙军，
申请(专利权)人：浙江脑动极光医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人