基于图像的识别与重建的人机交互方法和使用该方法的系统及装置制造方法及图纸

技术编号：24964655 阅读：18 留言：0更新日期：2020-07-21 15:07

本发明专利技术提供了一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置。本发明专利技术的基于图像的识别与重建的人机交互方法可对现实场景/视频中的视频序列进行采集并解析，并根据采集、解析到的数据重建机器人的运动模型和语音模型，进一步的为每个运动模型和语音模型匹配控制数据，构建交互信息与控制数据之间的结构数据框架，当机器人检测到现实场景中的交互信息后，机器人可在交互信息和控制数据的匹配控制下完成与现实场景中人物的互动，实现人机交互。

全部详细技术资料下载

【技术实现步骤摘要】
基于图像的识别与重建的人机交互方法和使用该方法的系统及装置本专利申请要求2018年10月10日提交的第62743682号美国临时专利申请的优先权，并通过引用将其包括在内。
本专利技术涉及图像捕捉、识别与重建
，尤其涉及一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置。
技术介绍
随着信息识别技术的不断发展，各种交互式机器设备不断出现，并逐步丰富了人们的精神文化生活。然而现有的交互式机器设备在对现实场景进行识别时，仅仅是对场景中的人脸表情和姿态进行简单的模拟，即现有的交互式机器设备与真实场景之间的互动仅为简单的模拟、模仿，而无法对场景中的信息进行识别以匹配相应的交互内容，致使现有技术中的交互式机器设备的互动程度低。有鉴于此，确有必要提供一种新的基于图像的识别与重建的人机交互方法，以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置，该人机交互方法可对视频序列中的图像和语音信息进行识别并重建模型，以建立交互数据库；进一步通过识别显示场景中的图像、运动或声音信息调用并匹配交互数据库中的模型，实现机器人与显示场景之间的互动。为实现上述专利技术目的，本专利技术提供了一种基于图像的识别与重建的人机交互方法，包括：S1、采集标准用户的标准视频序列，将所述标准视频序列进行表征和解调，获取并定义该标准视频序列的对应的运动模型和语音模型；S2、按照标准视频序列的时序，分别提取所...

【技术保护点】
1.一种基于图像的识别与重建的人机交互方法，包括：/nS1、采集标准用户的标准视频序列，将所述标准视频序列进行表征和解调，获取并定义该标准视频序列的对应的运动模型和语音模型；/nS2、按照标准视频序列的时序，分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息；/nS3、检测目标用户的个性视频序列，按照个性视频序列的时序对其进行表征，分别获取目标用户的运动个性信息和语音个性信息；/nS4、同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配，以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动，实现目标用户与机器人之间的交互。/n

【技术特征摘要】
1.一种基于图像的识别与重建的人机交互方法，包括：
S1、采集标准用户的标准视频序列，将所述标准视频序列进行表征和解调，获取并定义该标准视频序列的对应的运动模型和语音模型；
S2、按照标准视频序列的时序，分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息；
S3、检测目标用户的个性视频序列，按照个性视频序列的时序对其进行表征，分别获取目标用户的运动个性信息和语音个性信息；
S4、同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配，以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动，实现目标用户与机器人之间的交互。

2.根据权利要求1所述的基于图像的识别与重建的人机交互方法，其特征在于，所述步骤S1具体包括：
S11、采集标准用户的标准视频序列，并对所述标准视频序列进行解析，获取标准视频序列对应的标准图像序列和标准语音序列，所述标准图像序列包括若干按时序排列的标准图像帧；
S12、对每一所述标准图像帧进行表征和解调，同时定义标准图像帧中的若干关键点，并在每个所述标准图像帧中对所述关键点进行标记；
S13、根据不同标准图像帧中各个所述关键点在二维平面内的坐标变化，确定各个所述关键点的位移轨迹；
S14、根据不同标准图像帧中各个所述关键点在三维空间内的角度变化，确定各个所述关键点的转动轨迹；
S15、按照标准视频序列的时序，对各个所述关键点的位移轨迹和转动轨迹进行匹配，以构建所述标准视频序列对应的运动模型；
S16、按照标准视频序列的时序对所述标准语音序列进行表征和解调，定义标准语音序列在每一时序中的音频标志，并将所述音频标志与对应时序的标准图像帧进行匹配，以构建所述标准视频序列对应的语音模型。

3.根据权利要求2所述的基于图像的识别与重建的人机交互方法，其特征在于：所述运动模型包括表情模型和动作模型，所述表情模型用于重建机器人的面部图像并控制机器人产生相应的表情变化；所述动作模型用于控制机器人产生相应的动作/姿态变化。

4.根据权利要求1所述的基于图像的识别与重建的人机交互方法，其特征在于，所述步骤S2具体为：按照标准视频序列的时序，提取所述运动模型的运动特征信息和所述语音模型的语音特征信息，所述运动特征信息用于控制机器人产生对应的交互动作；所述运动特征信息包括肢体运动特征点、肢体运动单元、面部表情特征点以及表情运动单元，所述语音特征信息用于控制机器人产生对应的交互声音；所述语音特征信息包括语气、声调以及音素随时序变化的声学信号特征。

5.根据权利要求1所述的基于图像的识别与重建的人机交互方法，其特征在于：所述人机交互方法还包括数据库的建立，所述数据库的建立至少包括运动模型与机器人之间结构数据框架的搭建、语音模型与机器人之间结构数据框架的搭建，且所述运动模型和语音模型均存储在所述数据库中。

【专利技术属性】
技术研发人员：梅俊峰，
申请(专利权)人：合肥虹慧达科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人