基于摄像头和话筒的多媒体人机交互方法技术

技术编号：3048282 阅读：227 留言：0更新日期：2012-04-11 18:40

本发明专利技术方法利用摄像头拍摄到的用户头部活动影像进行处理，提取出头部运动矢量，根据该运动矢量对电脑显示形象进行控制，使其与用户头部同步动作；同时，通过话筒检测用户语音信号，用检测到的语音控制电脑显示形象的嘴部动作，达到更加逼真的效果。本发明专利技术成本低廉、使用方便、应用广泛，成本仅为动作捕捉系统的万分之一；应用本发明专利技术方法，基本不需要用户动手操作，就可自动实现电脑显示形象与用户的同步动作显示，可以将用户的双手和注意力解放出来；本发明专利技术可应用于即时通讯、远程教育、多媒体教学、“电子哈哈镜”、三维图形操控、卡通播音员／主持人、互动电子宠物、互动跳舞机器人、手机动漫秀、卡通广告片、摄像头／话筒套装捆绑软件等多种场合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人机交互
，为一种基于摄像头和话筒的人机交互方法，利用摄像头和话筒获取用户控制信息，控制电脑显示形象做出相应动作。
技术介绍
人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术，多媒体人机交互是基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术。随着科技发展，理想的人机交互提出以人的日常技能就可进行，不需要特别的训练的观点，并向此方向发展。如在QQ2006即时通讯软件中，新增了3D动漫秀功能，聊天者可以选择自己的动漫形象，通过鼠标操控，使其活动。该技术的人机交互是通过键盘、鼠标等传统方式进行的，卡通形象不能随聊天者的动作而同步运动，操控上需要用户逐一在菜单中点选相应的选项，也比较繁琐。在目前的3D动画创作中，已经采用了动作捕捉系统(Motion Capture System),可以实时地捕捉人体的运动，对3D建模形象的动作进行控制，其工作时需要在真人的身体上固定数十至数百个红外线标记物，还要用多部红外线摄像机从不同的角度进行拍摄，这样一套系统的售价至少80余万元，无法推广到大众应用。
技术实现思路
本专利技术要解决的技术问题是目前用户对电脑显示形象的动作控制繁琐，达到同步动作显示的成本高；针对人机交互的发展方向，提出一种方便快捷、应用广泛、成本低廉的多媒体人机交互方法。本专利技术的技术方案是，以摄像头和话筒为信号输入端，控制电脑显示形象的动作摄像头对用户头部进行拍摄，得到头部视频帧序列，通过运动矢量估...

【技术保护点】
基于摄像头和话筒的多媒体人机交互方法，其特征是以摄像头和话筒为信号输入端，控制电脑显示形象的动作：摄像头对用户头部进行拍摄，得到头部视频帧序列，通过运动矢量估计对用户头部视频的帧序列进行处理，提取出头部运动矢量，对电脑显示形象的头部动作进行控制；话筒对用户的语音进行录制，得到语音信号，通过语音包络估计对语音信号进行处理，提取出语音信号的包络，对电脑显示形象的嘴部动作进行控制，最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成，生成与用户同步动作的形象。

【技术特征摘要】
1、基于摄像头和话筒的多媒体人机交互方法，其特征是以摄像头和话筒为信号输入端，控制电脑显示形象的动作摄像头对用户头部进行拍摄，得到头部视频帧序列，通过运动矢量估计对用户头部视频的帧序列进行处理，提取出头部运动矢量，对电脑显示形象的头部动作进行控制；话筒对用户的语音进行录制，得到语音信号，通过语音包络估计对语音信号进行处理，提取出语音信号的包络，对电脑显示形象的嘴部动作进行控制，最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成，生成与用户同步动作的形象。2、根据权利要求1所述的基于摄像头和话筒的多媒体人机交互方法，其特征是通过运动矢量估计提取头部运动矢量，对电脑显示形象的头部动作进行控制的步骤为A. 将摄像头获取的彩色图像利用亮度公式y = 0.299J + 0.587G + 0.1145转换为灰度图像，设摄像头获取的视频序列格式为jx万像素，按wxm像素的宏块分割每帧图像，则每帧图像有C4/m)x(万/m)个宏块，对第A帧图像中的一个宏块，在第A: + 1帧图像的 (w + 2血，)x(m+ 2办_;)范围内搜索与之最匹配的宏±央，血^和办^为预先设置的宏块在水平和垂直方向上的最大位移量，匹配好坏的衡量可以采用绝对差均值最小准则、均方误差最小准则或归一化互相关函数最大准则；B. 将第A帧图像中第/行7列的宏块记为M^，力，1《/S5/w， l^v4/m，设第A + l帧图像中与Mj/J)最匹配的宏块相对于M^,/)在水平和垂直方向上的位移量分别为血^,/)和办4 (/,_/)，则从第A:帧图像到第A: + l帧图像的头部运动矢量为<formula>formula see original document page 2</formula>C. 对电脑显示形象的头部动作指令进行判断设定头部运动判断阈值5，由当前帧相对于前一帧的头部运动矢量确定用户不动、向左、向右、低头、抬头5个头部动作指令 |血」<5且|4^|<5，判定用户头部动作指令为不动； ②l血」2 5且l血」^^^1，判定用户头部动作指令为向左或向右；@| ^>《且|必」<|办」，或|血4|<3且|办」^3，判定用户头部动作指令为低头或抬头；D. 根据动作指令对电脑显示形象的头部动作进行控制头部状态包括标准、向左、向右、低头和抬头状态，初始为标准状态，根据收到的动作指令控制头部状态的变化；在某状态下，若收到不动指令，则保持该状态；在除标准状态的其它状态下，若收到同名指令，亦保持该状态，若收到相反指令，则回到标准状态；在其他情况下，将头部状态转向与收到指令同名状态，实现电脑显示形象的头部与用户头部同步运动。3、根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法，其特征是通过语音包络估计提取语音信号，对电脑显示形象的嘴部动作进行控制的过程为将话筒录制得到的语音信号^0经半波整流，得非负信号^(,)，再经低通滤波或滑动平均，得到语音包络信号玎O;对电脑显示形象的嘴部设定闭嘴、张小嘴、张大嘴3种状态，设摄像头拍摄第A帧图像的时刻为、，《、《为嘴部状态判断阈值，且《<《，若玎々)<《，则为闭嘴状态；若《^玎^)<《，则为张小嘴状态；若S()2^，则为张大嘴状态。4、根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法，其特征是电脑显示形象的头部和嘴部的运动合成为在电脑显示形象头部的标准、向左、向右、低头、抬头5个状态的图像中，指定嘴部中心点坐标，称为锚点，还指定通过锚点的一条直线，称为基线，且基线与电脑显示形象的双眼连线平行；设基线与水平线夹角为;i,则在标准、低头、抬头3个状态下，A = (r;在向右状态下，/l = fl°;在向左状态下， ;i = -°;将电脑显示形象嘴部图像叠加到头部，若头部状态为向左、向右，则将嘴部图像随基线旋转;i角度，若头部状态为低头、抬头，则将嘴部纵向压縮至原来的r倍，0<r<l，以模拟低头、抬头时嘴部视图的变化，通过添加过渡帧，使电脑显示形象的头部和嘴部动作更加平滑。5、根据权利要求3所述的基于摄像头和话筒的多媒体人机交互方法，其特征是电脑显示形象的头部和嘴部的动作合成为在电脑显示形象头部的标准、向左、向右、低头、抬头5个状态的图像中，指定嘴部中心点坐标，称为锚点；还指定通过锚点的一条直线，称为基线，基线与电脑显示形象的双眼连线平行，设基线与水平线夹角为/l，则在标准、低头、抬头3个状态下，义=0°;在向右状态下，；1 = ^;在向左状态下，；i = -fl°; 将电脑显示形象嘴部图像叠加到头部，若头部状态为向左、向右，则将嘴部图像随基线旋转;i角度，若头部状态为低头、抬头，则将嘴部纵向压縮至原来的r倍，0<r<l，以模拟低头、抬头时嘴部视图的变化，通过添加过渡帧，使电脑显示形象的头部和嘴部动作更加平滑。6、根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法，其特征是控制电脑显示形象的动作还包括以下处理a.在运动矢量估计中，在摄像头图像中预先圈定大致的头部或人物区域，只对该区域中的宏块计算位移量，以减少计算量；b.增加头部以外的身体部分的运动矢量的判断，并控制电脑显示形象做出相应动作；C.电脑显示形象头部动作指令包括不动、抬头、右抬头、向右、右低头、低头、左低头、向左、左抬头9种，对抬头、右抬头、向右、右低头、低头、左低头...

【专利技术属性】
技术研发人员：陈阳，吴乐南，
申请(专利权)人：东南大学，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人