当前位置: 首页 > 专利查询>东南大学专利>正文

基于摄像头和话筒的多媒体人机交互方法技术

技术编号:3048282 阅读:227 留言:0更新日期:2012-04-11 18:40
本发明专利技术方法利用摄像头拍摄到的用户头部活动影像进行处理,提取出头部运动矢量,根据该运动矢量对电脑显示形象进行控制,使其与用户头部同步动作;同时,通过话筒检测用户语音信号,用检测到的语音控制电脑显示形象的嘴部动作,达到更加逼真的效果。本发明专利技术成本低廉、使用方便、应用广泛,成本仅为动作捕捉系统的万分之一;应用本发明专利技术方法,基本不需要用户动手操作,就可自动实现电脑显示形象与用户的同步动作显示,可以将用户的双手和注意力解放出来;本发明专利技术可应用于即时通讯、远程教育、多媒体教学、“电子哈哈镜”、三维图形操控、卡通播音员/主持人、互动电子宠物、互动跳舞机器人、手机动漫秀、卡通广告片、摄像头/话筒套装捆绑软件等多种场合。

【技术实现步骤摘要】

本专利技术属于人机交互
,为一种基于摄像头和话筒的人机交互方法,利用摄 像头和话筒获取用户控制信息,控制电脑显示形象做出相应动作。
技术介绍
人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、 输出设备,以有效的方式实现人与计算机对话的技术,多媒体人机交互是基于视线跟踪、 语音识别、手势输入、感觉反馈等新的交互技术。随着科技发展,理想的人机交互提出 以人的日常技能就可进行,不需要特别的训练的观点,并向此方向发展。如在QQ2006即时通讯软件中,新增了3D动漫秀功能,聊天者可以选择自己的动 漫形象,通过鼠标操控,使其活动。该技术的人机交互是通过键盘、鼠标等传统方式进 行的,卡通形象不能随聊天者的动作而同步运动,操控上需要用户逐一在菜单中点选相 应的选项,也比较繁琐。在目前的3D动画创作中,已经采用了动作捕捉系统(Motion Capture System),可 以实时地捕捉人体的运动,对3D建模形象的动作进行控制,其工作时需要在真人的身 体上固定数十至数百个红外线标记物,还要用多部红外线摄像机从不同的角度进行拍 摄,这样一套系统的售价至少80余万元,无法推广到大众应用。
技术实现思路
本专利技术要解决的技术问题是目前用户对电脑显示形象的动作控制繁琐,达到同步 动作显示的成本高;针对人机交互的发展方向,提出一种方便快捷、应用广泛、成本低 廉的多媒体人机交互方法。本专利技术的技术方案是,以摄像头和话筒 为信号输入端,控制电脑显示形象的动作摄像头对用户头部进行拍摄,得到头部视频 帧序列,通过运动矢量估计对用户头部视频的帧序列进行处理,提取出头部运动矢量, 对电脑显示形象的头部动作进行控制;话筒对用户的语音进行录制,得到语音信号,通 过语音包络估计对语音信号进行处理,提取出语音信号的包络,对电脑显示形象的嘴部 动作进行控制,最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成,生成 与用户同步动作的形象。本专利技术通过运动矢量估计提取头部运动矢量,对电脑显示形象的头部动作进行控制的步骤为A. 将摄像头获取的彩色图像利用亮度公式y = 0.299A + 0.587G + 0.1145转换为灰 度图像,设摄像头获取的视频序列格式为^x5像素,按附xm像素的宏块分割每帧图像, 则每帧图像有G4/m)x(5/;)个宏块,对第A帧图像中的一个宏块,在第A + 1帧图像的 (附+ 2血鹏)x(m + 24^3j范围内搜索与之最匹配的宏i央,血m狀和办^为预先设置的宏块 在水平和垂直方向上的最大位移量,匹配好坏的衡量可以采用绝对差均值最小准则、均 方误差最小准则或归一化互相关函数最大准则;B. 将第A帧图像中第/行7列的宏块记为Mt (/,_/ ), B/2B/w, l^爿/w,设第6 + l帧图像中与M^',力最匹配的宏块相对于M^,7)在水平和垂直方向上的位移量 分别为血^(/,_/)和办JU),则从第A帧图像到第A + l帧图像的头部运动矢量为C. 对电脑显示形象的头部动作指令进行判断设定头部运动判断阈值^,由当前帧相对于前一帧的头部运动矢量确定用户不动、向左、向右、低头、抬头5个头部动作指令 |血」<^且|办^|<5,判定用户头部动作指令为不动;② Ifl^ 3且lAl—办小判定用户头部动作指令为向左或向右③ lc^l^^且l血,卜l办」,或|血4|<5且|办」^3,判定用户头部动作指令为低头或 抬头;D. 根据动作指令对电脑显示形象的头部动作进行控制头部状态包括标准、向左、 向右、低头和抬头状态,初始为标准状态,根据收到的动作指令控制头部状态的变化; 在某状态下,若收到不动指令,则保持该状态;在除标准状态的其它状态下,若收到同 名指令,亦保持该状态,若收到相反指令,则回到标准状态;在其他情况下,将头部状 态转向与收到指令同名状态,实现电脑显示形象的头部与用户头部同步运动。通过语音包络估计提取语音信号,对电脑显示形象的嘴部动作进行控制过程为将 话筒录制得到的语音信号s(O经半波整流,得非负信号^( ),再经低通滤波或滑动平均,得到语音包络信号^f);对电脑显示形象的嘴部设定闭嘴、张小嘴、张大嘴3种状态,设摄像头拍摄第A帧图像的时刻为^,《、《为嘴部状态判断阈值,且《<《,若则为闭嘴状态;若《0~(0<《,则为张小嘴状态;若;(4)2《,则为张大嘴状态。电脑显示形象的头部和嘴部的动作合成为在电脑显示形象头部的标准、向左、向 右、低头、抬头5个状态的图像中,指定嘴部中心点坐标,称为锚点;还指定通过锚点 的一条直线,称为基线,基线与电脑显示形象的双眼连线平行,设基线与水平线夹角为;i,则在标准、低头、抬头3个状态下,a = o°;在向右状态下,;i = ^;在向左状态下,义=-^;将电脑显示形象嘴部图像叠加到头部,若头部状态为向左、向右,则将嘴部图像随基线旋转;i角度,若头部状态为低头、抬头,则将嘴部纵向压縮至原来的r倍,0<r<l,以模拟低头、抬头时嘴部视图的变化,通过添加过渡帧,使电脑显示形象的头部和嘴部动作更加平滑。本专利技术控制电脑显示形象的动作还包括以下处理a. 在运动矢量估计中,在摄像头图像中预先圈定大致的头部或人物区域,只对该区域中的宏块计算位移量,以减少计算量;b. 增加头部以外的身体部分的运动矢量的判断,并控制电脑显示形象做出相应动作;c. 电脑显示形象头部动作指令包括不动、抬头、右抬头、向右、右低头、低头、左低头、向左、左抬头9种,对抬头、右抬头、向右、右低头、低头、左低头、向左、 左抬头8种指令的判断为将运动矢量所属的区域按每隔45'进行对应划分,根据运动矢量落在哪一区域判断相应的动作指令,还可根据运动矢量的模大小控制电脑显示形象动作幅度的大小;d. 电脑显示形象按照一定的频率眨眼,或与嘴部动作相结合,当说话时按照一定 频率眨眼,或结合人脸识别中的眼睛定位技术,确定人眼位置,捕捉眨眼动作;如确定 了双眼位置,还可利用透视关系,通过图像中双眼距离的变化结合头部运动矢量判断头 部的转动,若运动矢量向左/右时伴随双眼距离变小,则可判断用户头部向左/右转动, 控制电脑显示形象相应转头;e. 电脑显示形象在一般情况下保持微笑,设定若干表情按钮,当用户需要时,按 下按钮,使电脑显示形象做出相应表情;f. 设定电脑显示形象按照预先设置的程序做不受用户控制的运动,产生不受用户 控制的运动和受用户控制的运动穿插进行的效果;g. 可用手臂代替头部运动,对电脑显示形象的头部状态进行控制。 本专利技术方法利用摄像头拍摄到的用户头部活动影像进行处理,提取出头部运动矢量,根据该运动矢量对电脑显示形象进行控制,使其与用户头部同步动作;同时,通过 话筒检测用户语音信号,用检测到的语音控制电脑显示形象的嘴部动作,达到更加逼真 的效果。本专利技术成本低廉、使用方便、应用广泛,目前很多笔记本电脑都自带摄像头, 摄像头和话筒也逐渐成为家用电脑的标准配置,摄像头的售价为数十至数百元,话筒的售价为数十元,成本仅为动作捕捉系统的万分之一;应用本专利技术方法,基本不需要用户 动手操作,就可自动实现电脑显示形象与用户的同步动作显示,可以将用户的双手和注 意本文档来自技高网...

【技术保护点】
基于摄像头和话筒的多媒体人机交互方法,其特征是以摄像头和话筒为信号输入端,控制电脑显示形象的动作:摄像头对用户头部进行拍摄,得到头部视频帧序列,通过运动矢量估计对用户头部视频的帧序列进行处理,提取出头部运动矢量,对电脑显示形象的头部动作进行控制;话筒对用户的语音进行录制,得到语音信号,通过语音包络估计对语音信号进行处理,提取出语音信号的包络,对电脑显示形象的嘴部动作进行控制,最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成,生成与用户同步动作的形象。

【技术特征摘要】
1、基于摄像头和话筒的多媒体人机交互方法,其特征是以摄像头和话筒为信号输入端,控制电脑显示形象的动作摄像头对用户头部进行拍摄,得到头部视频帧序列,通过运动矢量估计对用户头部视频的帧序列进行处理,提取出头部运动矢量,对电脑显示形象的头部动作进行控制;话筒对用户的语音进行录制,得到语音信号,通过语音包络估计对语音信号进行处理,提取出语音信号的包络,对电脑显示形象的嘴部动作进行控制,最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成,生成与用户同步动作的形象。2、 根据权利要求1所述的基于摄像头和话筒的多媒体人机交互方法,其特征是通 过运动矢量估计提取头部运动矢量,对电脑显示形象的头部动作进行控制的步骤为A. 将摄像头获取的彩色图像利用亮度公式y = 0.299J + 0.587G + 0.1145转换为灰 度图像,设摄像头获取的视频序列格式为jx万像素,按wxm像素的宏块分割每帧图像, 则每帧图像有C4/m)x(万/m)个宏块,对第A帧图像中的一个宏块,在第A: + 1帧图像的 (w + 2血,)x(m+ 2办_;)范围内搜索与之最匹配的宏±央,血^和办^为预先设置的宏块 在水平和垂直方向上的最大位移量,匹配好坏的衡量可以采用绝对差均值最小准则、均 方误差最小准则或归一化互相关函数最大准则;B. 将第A帧图像中第/行7列的宏块记为M^,力,1《/S5/w, l^v4/m,设第A + l帧图像中与Mj/J)最匹配的宏块相对于M^,/)在水平和垂直方向上的位移量 分别为血^,/)和办4 (/,_/),则从第A:帧图像到第A: + l帧图像的头部运动矢量为<formula>formula see original document page 2</formula>C. 对电脑显示形象的头部动作指令进行判断设定头部运动判断阈值5,由当前 帧相对于前一帧的头部运动矢量确定用户不动、向左、向右、低头、抬头5个头部动作 指令 |血」<5且|4^|<5,判定用户头部动作指令为不动; ②l血」2 5且l血」^^^1,判定用户头部动作指令为向左或向右;@| ^>《且|必」<|办」,或|血4|<3且|办」^3,判定用户头部动作指令为低头或 抬头;D. 根据动作指令对电脑显示形象的头部动作进行控制头部状态包括标准、向左、 向右、低头和抬头状态,初始为标准状态,根据收到的动作指令控制头部状态的变化; 在某状态下,若收到不动指令,则保持该状态;在除标准状态的其它状态下,若收到同名指令,亦保持该状态,若收到相反指令,则回到标准状态;在其他情况下,将头部状 态转向与收到指令同名状态,实现电脑显示形象的头部与用户头部同步运动。3、 根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法,其特征 是通过语音包络估计提取语音信号,对电脑显示形象的嘴部动作进行控制的过程为将话筒录制得到的语音信号^0经半波整流,得非负信号^(,),再经低通滤波或滑动平均,得到语音包络信号玎O;对电脑显示形象的嘴部设定闭嘴、张小嘴、张大嘴3种状态,设摄像头拍摄第A帧图像的时刻为、,《、《为嘴部状态判断阈值,且《<《,若 玎々)<《,则为闭嘴状态;若《^玎^)<《,则为张小嘴状态;若S()2^,则为张大 嘴状态。4、 根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法,其特征 是电脑显示形象的头部和嘴部的运动合成为在电脑显示形象头部的标准、向左、向右、 低头、抬头5个状态的图像中,指定嘴部中心点坐标,称为锚点,还指定通过锚点的一条直线,称为基线,且基线与电脑显示形象的双眼连线平行;设基线与水平线夹角为;i,则在标准、低头、抬头3个状态下,A = (r;在向右状态下,/l = fl°;在向左状态下, ;i = -°;将电脑显示形象嘴部图像叠加到头部,若头部状态为向左、向右,则将嘴部图像随基线旋转;i角度,若头部状态为低头、抬头,则将嘴部纵向压縮至原来的r倍,0<r<l,以模拟低头、抬头时嘴部视图的变化,通过添加过渡帧,使电脑显示形象的头部和嘴部动作更加平滑。5、 根据权利要求3所述的基于摄像头和话筒的多媒体人机交互方法,其特征是电脑显示形象的头部和嘴部的动作合成为在电脑显示形象头部的标准、向左、向右、低 头、抬头5个状态的图像中,指定嘴部中心点坐标,称为锚点;还指定通过锚点的一条 直线,称为基线,基线与电脑显示形象的双眼连线平行,设基线与水平线夹角为/l,则 在标准、低头、抬头3个状态下,义=0°;在向右状态下,;1 = ^;在向左状态下,;i = -fl°; 将电脑显示形象嘴部图像叠加到头部,若头部状态为向左、向右,则将嘴部图像随基线旋转;i角度,若头部状态为低头、抬头,则将嘴部纵向压縮至原来的r倍,0<r<l,以模拟低头、抬头时嘴部视图的变化,通过添加过渡帧,使电脑显示形象的头部和嘴部 动作更加平滑。6、 根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法,其特征是控制电脑显示形象的动作还包括以下处理a.在运动矢量估计中,在摄像头图像中预先圈定大致的头部或人物区域,只对该区域中的宏块计算位移量,以减少计算量;b.增加头部以外的身体部分的运动矢量的判断,并控制电脑显示形象做出相应动作;C.电脑显示形象头部动作指令包括不动、抬头、右抬头、向右、右低头、低头、 左低头、向左、左抬头9种,对抬头、右抬头、向右、右低头、低头、左低头...

【专利技术属性】
技术研发人员:陈阳吴乐南
申请(专利权)人:东南大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利