基于图像的识别与重建的人机交互方法和使用该方法的系统及装置制造方法及图纸

技术编号:24964655 阅读:18 留言:0更新日期:2020-07-21 15:07
本发明专利技术提供了一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置。本发明专利技术的基于图像的识别与重建的人机交互方法可对现实场景/视频中的视频序列进行采集并解析,并根据采集、解析到的数据重建机器人的运动模型和语音模型,进一步的为每个运动模型和语音模型匹配控制数据,构建交互信息与控制数据之间的结构数据框架,当机器人检测到现实场景中的交互信息后,机器人可在交互信息和控制数据的匹配控制下完成与现实场景中人物的互动,实现人机交互。

【技术实现步骤摘要】
基于图像的识别与重建的人机交互方法和使用该方法的系统及装置本专利申请要求2018年10月10日提交的第62743682号美国临时专利申请的优先权,并通过引用将其包括在内。
本专利技术涉及图像捕捉、识别与重建
,尤其涉及一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置。
技术介绍
随着信息识别技术的不断发展,各种交互式机器设备不断出现,并逐步丰富了人们的精神文化生活。然而现有的交互式机器设备在对现实场景进行识别时,仅仅是对场景中的人脸表情和姿态进行简单的模拟,即现有的交互式机器设备与真实场景之间的互动仅为简单的模拟、模仿,而无法对场景中的信息进行识别以匹配相应的交互内容,致使现有技术中的交互式机器设备的互动程度低。有鉴于此,确有必要提供一种新的基于图像的识别与重建的人机交互方法,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于图像的识别与重建的人机交互方法和使用该方法的系统及装置,该人机交互方法可对视频序列中的图像和语音信息进行识别并重建模型,以建立交互数据库;进一步通过识别显示场景中的图像、运动或声音信息调用并匹配交互数据库中的模型,实现机器人与显示场景之间的互动。为实现上述专利技术目的,本专利技术提供了一种基于图像的识别与重建的人机交互方法,包括:S1、采集标准用户的标准视频序列,将所述标准视频序列进行表征和解调,获取并定义该标准视频序列的对应的运动模型和语音模型;S2、按照标准视频序列的时序,分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息;S3、检测目标用户的个性视频序列,按照个性视频序列的时序对其进行表征,分别获取目标用户的运动个性信息和语音个性信息;S4、同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配,以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动,实现目标用户与机器人之间的交互。作为本专利技术的进一步改进,所述步骤S1具体包括:S11、采集标准用户的标准视频序列,并对所述标准视频序列进行解析,获取标准视频序列对应的标准图像序列和标准语音序列,所述标准图像序列包括若干按时序排列的标准图像帧;S12、对每一所述标准图像帧进行表征和解调,同时定义标准图像帧中的若干关键点,并在每个所述标准图像帧中对所述关键点进行标记;S13、根据不同标准图像帧中各个所述关键点在二维平面内的坐标变化,确定各个所述关键点的位移轨迹;S14、根据不同标准图像帧中各个所述关键点在三维空间内的角度变化,确定各个所述关键点的转动轨迹;S15、按照标准视频序列的时序,对各个所述关键点的位移轨迹和转动轨迹进行匹配,以构建所述标准视频序列对应的运动模型;S16、按照标准视频序列的时序对所述标准语音序列进行表征和解调,定义标准语音序列在每一时序中的音频标志,并将所述音频标志与对应时序的标准图像帧进行匹配,以构建所述标准视频序列对应的语音模型。作为本专利技术的进一步改进,所述运动模型包括表情模型和动作模型,所述表情模型用于重建机器人的面部图像并控制机器人产生相应的表情变化;所述动作模型用于控制机器人产生相应的动作/姿态变化。作为本专利技术的进一步改进,所述步骤S2具体为:按照标准视频序列的时序,提取所述运动模型的运动特征信息和所述语音模型的语音特征信息,所述运动特征信息用于控制机器人产生对应的交互动作;所述运动特征信息包括肢体运动特征点、肢体运动单元、面部表情特征点以及表情运动单元,所述语音特征信息用于控制机器人产生对应的交互声音;所述语音特征信息包括语气、声调以及音素随时序变化的声学信号特征。作为本专利技术的进一步改进,所述人机交互方法还包括数据库的建立,所述数据库的建立至少包括运动模型与机器人之间结构数据框架的搭建、语音模型与机器人之间结构数据框架的搭建,且所述运动模型和语音模型均存储在所述数据库中。为实现上述专利技术目的,本专利技术提供了一种基于图像的识别与重建的人机交互系统,包括:视频采集处理单元,包括视频采集模块和视频处理模块,所述视频采集模块用于采集标准用户的标准视频序列和目标用户的个性视频序列;所述视频处理模块用于对所述标准视频序列和个性视频序列进行表征和解调;运动控制单元,与所述视频采集处理单元电性连接,包括运动轨迹提取模块和运动状态拟合模块,所述运动轨迹提取模块用于获取标准视频序列中各个关键点的位移轨迹和转动轨迹;所述运动状态拟合模块用于构建所述标准视频序列对应的运动模型;语音合成单元,分别与所述视频采集处理单元和运动控制单元电性连接,包括语音提取模块和音频重建模块,所述语音提取模块用于按照标准视频序列的时序提取标准视频序列中的音频信息;所述音频重建模块用于按照标准视频序列的时序重建语音模型;特征点匹配单元,分别与所述视频采集处理单元、运动控制单元以及语音合成单元电性连接,所述特征点匹配单元包括运动特征匹配模块和语音特征匹配模块,所述运动特征匹配模块用于将目标用户的运动个性信息与运动模型进行匹配,以产生相应的运动控制指令;所述语音特征匹配模块用于将目标用户的语音个性信息与语音模型进行匹配,以产生相应的语音控制指令;行为执行单元,与所述特征点匹配单元电性连接,用于接收所述特征点匹配单元发出的运动控制指令和/或语音控制指令,以与目标用户进行交互。作为本专利技术的进一步改进,所述运动控制单元还包括表情重建模组,所述表情重建模组包括表情拟合模块和表情驱动模块,所述表情拟合模块用于根据标准视频序列中的各个关键点拟合重建机器人的面部表情模型;所述表情驱动模块用于根据标准视频序列中的各个关键点的位移轨迹驱动面部表情模型产生相应的表情。作为本专利技术的进一步改进,所述人机交互系统还包括存储单元,所述存储单元分别与所述运动控制单元和语音合成单元电性连接,以存储运动模型、语音模型以及面部表情模型。为实现上述专利技术目的,本专利技术还提供了一种基于图像的识别与重建的交互式装置,所述基于图像的识别与重建的交互式装置为机器人,所述机器人包括主体、与所述主体活动连接的头部以及连接在所述主体上的躯干部,其特征在于:所述机器人还包括视频采集模组,用于采集标准用户的标准视频序列和目标用户的个性视频序列,并对所述标准视频序列和个性视频序列进行表征和解调;模型重建模组,用于根据标准视频序列构建运动模型和语音模型;数据处理模组,用于将运动模型和语音模型与所述个性视频序列进行匹配,并产生相应的控制指令,以控制机器人进行相应的显示/动作。为实现上述专利技术目的,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被处理器执行时,可实现前述的基于图像的识别与重建的人机交互方法。本专利技术的有益效果是:本专利技术的基于图像的识别与重建的人机交互方法可对现实场景/视频中的视频序列进行采集并解析,以根据采集、解析到的数据重建机器人的运动模型和语音模型,进一步的为每个运动模型和语本文档来自技高网...

【技术保护点】
1.一种基于图像的识别与重建的人机交互方法,包括:/nS1、采集标准用户的标准视频序列,将所述标准视频序列进行表征和解调,获取并定义该标准视频序列的对应的运动模型和语音模型;/nS2、按照标准视频序列的时序,分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息;/nS3、检测目标用户的个性视频序列,按照个性视频序列的时序对其进行表征,分别获取目标用户的运动个性信息和语音个性信息;/nS4、同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配,以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动,实现目标用户与机器人之间的交互。/n

【技术特征摘要】
1.一种基于图像的识别与重建的人机交互方法,包括:
S1、采集标准用户的标准视频序列,将所述标准视频序列进行表征和解调,获取并定义该标准视频序列的对应的运动模型和语音模型;
S2、按照标准视频序列的时序,分别提取所述运动模型和语音模型中的运动特征信息和语音特征信息;
S3、检测目标用户的个性视频序列,按照个性视频序列的时序对其进行表征,分别获取目标用户的运动个性信息和语音个性信息;
S4、同时对运动特征信息和运动个性信息、语音特征信息和语音个性信息进行匹配,以调用相应的运动模型和语音模型直接/间接的控制机器人进行显示和/或运动,实现目标用户与机器人之间的交互。


2.根据权利要求1所述的基于图像的识别与重建的人机交互方法,其特征在于,所述步骤S1具体包括:
S11、采集标准用户的标准视频序列,并对所述标准视频序列进行解析,获取标准视频序列对应的标准图像序列和标准语音序列,所述标准图像序列包括若干按时序排列的标准图像帧;
S12、对每一所述标准图像帧进行表征和解调,同时定义标准图像帧中的若干关键点,并在每个所述标准图像帧中对所述关键点进行标记;
S13、根据不同标准图像帧中各个所述关键点在二维平面内的坐标变化,确定各个所述关键点的位移轨迹;
S14、根据不同标准图像帧中各个所述关键点在三维空间内的角度变化,确定各个所述关键点的转动轨迹;
S15、按照标准视频序列的时序,对各个所述关键点的位移轨迹和转动轨迹进行匹配,以构建所述标准视频序列对应的运动模型;
S16、按照标准视频序列的时序对所述标准语音序列进行表征和解调,定义标准语音序列在每一时序中的音频标志,并将所述音频标志与对应时序的标准图像帧进行匹配,以构建所述标准视频序列对应的语音模型。


3.根据权利要求2所述的基于图像的识别与重建的人机交互方法,其特征在于:所述运动模型包括表情模型和动作模型,所述表情模型用于重建机器人的面部图像并控制机器人产生相应的表情变化;所述动作模型用于控制机器人产生相应的动作/姿态变化。


4.根据权利要求1所述的基于图像的识别与重建的人机交互方法,其特征在于,所述步骤S2具体为:按照标准视频序列的时序,提取所述运动模型的运动特征信息和所述语音模型的语音特征信息,所述运动特征信息用于控制机器人产生对应的交互动作;所述运动特征信息包括肢体运动特征点、肢体运动单元、面部表情特征点以及表情运动单元,所述语音特征信息用于控制机器人产生对应的交互声音;所述语音特征信息包括语气、声调以及音素随时序变化的声学信号特征。


5.根据权利要求1所述的基于图像的识别与重建的人机交互方法,其特征在于:所述人机交互方法还包括数据库的建立,所述数据库的建立至少包括运动模型与机器人之间结构数据框架的搭建、语音模型与机器人之间结构数据框架的搭建,且所述运动模型和语音模型均存储在所述数据库中。

【专利技术属性】
技术研发人员:梅俊峰
申请(专利权)人:合肥虹慧达科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1