当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于Avatar表情移植的虚拟社交方法技术

技术编号:21892733 阅读:48 留言:0更新日期:2019-08-17 14:50
本发明专利技术涉及一种基于Avatar表情移植的虚拟社交方法。本方法的具体操作步骤是:一利用SDM(监督下降方法)从实时输入的视频流中提取人脸特征点;二、面部语义特征作为CPR(级联姿态回归)训练的DDE(位移动态表情)模型的输入,输出的表情系数和头部运动参数移植给Avatar(虚拟化身);三、对DDE模型输出的表情系数进行表情编码分组与情感分类;四、通过网络传输策略实现表情动画音频同步。本发明专利技术能实时捕捉用户面部表情并在Avatar上进行表情重演,并搭建网络通讯技术的虚拟社交。

A Virtual Social Communication Method Based on Avatar Expression Transplantation

【技术实现步骤摘要】
一种基于Avatar表情移植的虚拟社交方法
本专利技术涉及计算机视觉、计算机图形学、人脸动画、网络通信
,具体是一种基于Avatar表情移植的虚拟社交方法,能实时捕捉用户面部表情并在Avatar上进行表情重演,并搭建网络通信技术的虚拟社交。
技术介绍
目前市场上的虚拟社交类系统如雨后春笋般涌现,其中商业思路也各有不同,主要分为工具性、UGC型和全体验型三种。工具型中以移动虚拟社交网络平台VTime最具代表性,通过VR头盔接入,头部运动来实现人机界面的交互控制以及虚拟世界的导航,语音进行沟通,但其提供的虚拟角色形象较为固定,支持的场景也相对简单;UGC型虚拟社交系统,提供高度开放的虚拟共享世界,并支持用户与朋友进行实时的交互式创建,其中基于3D摄影机的HighFidelity,能捕捉人的表情和头部动作,如眨眼和嘴唇等动作,并同步到虚拟角色身上,提供更灵活的场景编辑和更丰富的交互体验,但这类应用依赖于辅助外设,如3D摄影机等;全方位体验型,主要以Altspace和FacebookSpace为代表,其中AltspaceVR能让你在虚拟空间中和朋友会面、并在线聊天的社交应用,用户的头部运动和眨眼等动作也会被同步到虚拟角色身上,而FacebookSpace中,用户能上传自拍或者合拍的照片来打造适合自己的虚拟形象以及后续发型、五官编辑等工作,并根据语音识别普配出大概的发音嘴型,同时用户可借助手柄来实现简单动作的交互控制。现有虚拟社交系统中,大部分只捕捉用户眨眼、口型以及头部运动等参数,缺乏对面部表情的捕捉,而面对面视频聊天中的非语言线索在沟通情绪、调节转折,实现和维持谈话关系方面发挥着至关重要的作用,其中面部表情是表达天生情感线索的最普遍标志,可以帮助我们更好地了解我们的对话者。由于表情捕捉、网络传输等技术限制,构建带有表情捕捉功能的虚拟社交系统带来很大挑战。基于此,本专利构建了一个基于Avatar表情移植的虚拟社交系统。
技术实现思路
本专利技术的目的在于:克服
技术介绍
的不足,提供一种基于Avatar表情移植的虚拟社交方法,能实时捕捉用户面部表情并在Avatar上进行表情重演,并搭建网络通信技术的虚拟社交。为达到以上目的,本专利技术采用的构思为:利用SDM从实时输入的视频流中提取人脸特征点;2D面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar;对DDE模型输入的表情系数进行表情编码分组与情感分类;通过网络传输策略实现表情动画音频数据同步。根据上述专利技术构思,本专利技术采用下述技术步骤:一种基于Avatar表情移植的虚拟社交方法,其特征在于具体操作步骤如下:步骤一、利用SDM从实时输入的视频流中提取人脸特征点;利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的NLS函数的平均值最小化的下降方向。在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域并初始化平均2D形状模型,因此人脸对齐问题的求解就变成寻找梯度方向步长,于是使用学习下降的方向将NLS最小化,从而实现实时的2D人脸特征点提取。步骤二、面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数。首先利用FACS建立包含中性面以及其他n个表情融合网格模型,即B={b0,b1,…,bn},然后由融合表情模型的线性组合来表示DEM。并组织了50位不同年龄段的用户,通过Kinect构造用户3D表情库来重建标准blendshape网格模型,其中单个用户的表情混合模型由B=C×uT参数化重建,u为用户身份向量,C为三级核心张量。而2D形状模型{Sk}的特征点可通过3D网格模型相应顶点的投影加上位移向量dk表示。然后利用CPR回归算法完成DDE模型的未知量(Q,u;e,R,t,D)到2D形状模型{Sk}的函数映射,即CPR(I,Q,u;Pin)=Pout,其中形状向量P=(e,R,t,D)。在运行阶段,通过FaceWarehouse的平均身份向量来初始化u值,坐标系下降和二分查找的方法求解矩阵Q。对于形状向量P,当新用户进入时,第一帧图像通过2D的CPR方法提取73个特征点,生成2D形状向量Sk,与训练的3D形状向量的投影{S′k}重心对齐后,计算相应特征点的均方根距离,找到K组最近的形状向量然后通过来计算以及的平均形状向量并利用拟合误差项、正规化项、时间一致项加权组合以及BFGS优化器来稳定表情重演的动画效果,以及DEM多帧图像联合优化相机投影矩阵Q和身份向量u,而后续图像的2D形状向量通过前一帧计算的3D形状向量投影得到。步骤三、对DDE模型输出的表情系数进行表情编码分组与情感分类在传输分组尺寸一定时,传输占用信道的时间与节点的传输速度成反比,因此网络传输速度降低时,通过实时自适应调整传输数据分组的尺寸,能极大地减少数据包占用信道的时间,显著提高网络性能。系统中通过调整表情系数的数量来设计三种不同尺寸的数据分组,但表情系数数量的降低,表情动画的移植也相应的会受到影响。为了测试不同表情系数对融合动画影响的程度,我们分别组织了50位动画专业的大学生参与系统测试和用户体验反馈。并根据1971年Ekman和Friesen研究6种基本表情(高兴、悲伤、惊讶、恐惧和厌恶)所建立的人脸表情图像库,建立自己的面部表情动作单元与表情间的映射关系。步骤四、通过网络传输策略实现表情动画音频数据同步同步是多媒体通信的主要特征,是多媒体系统服务质量(QoS)研究中的重要内容,媒体间同步即要保持表情动画和音频之间的时间关系,但由于发送端在数据采集编码和数据解码等处理算法不同引起时间差,以及网络传输延迟等引起的失步。因此本专利技术中在发送端别对每次捕捉的表情系数和采样的语音数据打上相对时间戳,包括绝对时间和局部时间标志。在接收端,考虑到人对声音更为敏感,系统中选择音频作为主流,表情动画作为从流,主流连续播放,从流的播放由主流的播放状态决定,进而实现同步。针对多点网络传输中的同步问题,由于不同客户端的时间戳可能按不同的速率推进,直接比较各自的时间戳很难实现多客户端间的同步,因此系统中将客户端的时间戳和服务端的参考时钟关联,组成时间戳对,所有组播网内的客户端共享参考时钟。针对复杂网络环境下网速的降低,导致网络传输延迟和数据分组丢失严重的问题,本文中利用QoS反馈机制来实时检测网络服务质量的变化,当网络状况较好时,通过减少循环队列的长度,提高表情动画的实时性;当网络状况较差时,通过增加循环队列的长度,用延迟换取表情动画和音频的流畅性;该方法有效地降低网络抖动对表情动画和音频播放质量的影响,从而在实时性和流畅性之间保持平衡。本专利技术与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点,可实时捕捉用户面部表情,并移植到虚拟角色身上的网络社交平台。包括输入模块、表情重现模块、及时网络通信模块、可视化模块,所述输入模块,通过网络摄像头和麦克风实时捕捉用户脸部轮廓模型和语音信息,并借助鼠标键盘实现与虚拟场本文档来自技高网
...

【技术保护点】
1.一种基于Avatar表情移植的虚拟社交方法,其特征在于,具体步骤如下:步骤一、利用SDM从实时输入的视频流中提取人脸特征点:利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的非线性最小二乘法函数的平均值最小化的下降方向;在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域并初始化平均2D形状模型,因此人脸对齐问题的求解就变成寻找梯度方向步长,于是使用学习下降的方向将NLS最小化,从而实现实时的2D人脸特征点提取;步骤二、面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar:基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数;首先利用面部动作编码系统FACS建立包含中性面以及其他n个表情融合网格模型,即

【技术特征摘要】
1.一种基于Avatar表情移植的虚拟社交方法,其特征在于,具体步骤如下:步骤一、利用SDM从实时输入的视频流中提取人脸特征点:利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的非线性最小二乘法函数的平均值最小化的下降方向;在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域并初始化平均2D形状模型,因此人脸对齐问题的求解就变成寻找梯度方向步长,于是使用学习下降的方向将NLS最小化,从而实现实时的2D人脸特征点提取;步骤二、面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar:基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数;首先利用面部动作编码系统FACS建立包含中性面以及其他n个表情融合网格模型,即,然后由融合表情模型的线性组合来表示动态表情模型DEM,并组织了50位不同年龄段的用户,通过Kinect构造用户3D表情库来重建标准blendshape网格模型,其中单个用户的表情混合模型由参数化重建,u为用户身份向量,C为三级核心张量;而2D形状模型的特征点可通过3D网格模型相应顶点的投影加上位移向量表示,然后利用CPR回归算法完成DDE模型的未知量到2D形状模型的函数映射,即,其中形状向量;在运行阶段,通过FaceWarehouse的平均身份向量来初始化u值,坐标系下降和二分查找的方法求解矩阵Q;而形状向量P的求解过程如图2所示,当新用户进入时,第一帧图像通过2D的CPR方法提取73个特征点,生成2D形状向量,与训练的3D形状向量的投影重心对齐后,计算相应特征点的均方根距离,找到K组最近的形状向量,然后通过来计算以及的平均形状向量,并利用拟合误差项、正规化项、时间一致项加权组合以及BFGS优化器来稳定表情重演的动画效果,以及DEM多帧图像联合优化相机投影矩阵Q和身份向量u,而后续图像的2D形状向量通过前一帧计算的3D形状向量投影得到;步骤三、对DDE模型输出的表情系数进行表情编码分组与情感分类:在传输分组尺寸一定时,传输占用信道的时间与节点的传输速度成反比,因此网络传输速度降低时,通过实时自适应调整传输数据分组的尺寸,能极大地减少数据包占用信道的时间,显著提高网络性能;系统中通过调整表情系数的数量来设计三种不同尺寸的数据分组,但表情系数数量的降低,表情动画的移植也相应的会受到影响,为了测试不同表情系数对融合动画影响的程度,我们分别组织了50位动画专业的大学生参与系统测试和用户体验反馈,并根据1971年Ekman和Friesen研究6种基本表情:高兴、悲伤、惊讶、恐惧、厌恶,所建立的人脸表情图像...

【专利技术属性】
技术研发人员:黄东晋姚院秋肖帆蒋晨凤李贺娟丁友东
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1