一种视频聊天方法、发送端、接收端及装置制造方法及图纸

技术编号:37200940 阅读:10 留言:0更新日期:2023-04-20 22:56
本发明专利技术公开了一种视频聊天方法、发送端、接收端及装置,其中,方法包括:获取本端用户的人声数据、面部图像和姿态信息;提取人声数据对应的情绪特征信息和唇形特征信息;提取面部图像对应的AU特征信息;提取姿态信息对应的姿态特征信息;将人声数据、情绪特征信息、唇形特征信息、AU特征信息和姿态特征信息发送到对端接收端;其中,对端接收端能够接收并将上述特征信息与本端用户的初始人脸3D模型、初始姿态3D模型进行特征拟合,得到人像整体的3D VR图像;同步显示播放人像整体的3D VR图像和人声数据。本发明专利技术实施例可以使交流者在视频聊天过程中实时地、全方位地、立体地看到交流对象的真实样貌且数据传输量小、延迟短、使用门槛低。使用门槛低。使用门槛低。

【技术实现步骤摘要】
一种视频聊天方法、发送端、接收端及装置


[0001]本专利技术涉及通信
,具体涉及一种视频聊天方法、发送端、接收端及装置。

技术介绍

[0002]随着人们交流需求的不断变化与增加,更加便携的交流方式、更加生动的交流体验也变成了人们越来越追求的新型交流模式。现有的视频交流系统大多数是简单的语音电话或者音视频结合的视频电话,其传输的是2D图像。跟3D交流相比,2D交流真实感很差,可视的范围很局限,缺少空间和相对位置信息。在3D交流过程中,交流对象的外形信息是立体的,完整的,交流对象的各个角度的特征都可以被表达出来。
[0003]常规的3D交流思路即双目相机拍摄图像生成点云,对点云进行传输,此方法虽然成熟,却存在数据量传输过大的问题,会导致传输慢延迟大,因此渲染到页面上的速度也很慢,造成交流过程的卡顿,严重影响交流体验。此外,常规3D交流思路还需要大型的屏幕或者空间作为图像呈现的载体来实现3D功能,再加上3D点云成像技术对于网络的要求逐渐提高,技术成本也是成倍增长。受限于3D技术的难点、信息传输的技术成本,大多数企业只能采用付费会员或者限制专用设备的方式,从而也相应的提高了使用门槛。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术第一方面提出一种视频聊天方法,应用于发送端,所述方法包括以下步骤:
[0005]获取本端用户的人声数据、面部图像和姿态信息;
[0006]提取所述人声数据对应的情绪特征信息和唇形特征信息;
[0007]提取所述面部图像对应的AU特征信息;
[0008]提取所述姿态信息对应的姿态特征信息;
[0009]将所述人声数据、所述情绪特征信息、所述唇形特征信息、所述AU特征信息和所述姿态特征信息发送到对端接收端;
[0010]其中,所述对端接收端能够接收所述人声数据、所述情绪特征信息、所述唇形特征信息、所述AU特征信息和所述姿态特征信息;
[0011]将所述情绪特征向量、所述唇形特征信息、所述AU特征信息与所述本端用户的初始人脸3D模型进行特征拟合,得到所述本端用户的面部3D点云;
[0012]将所述姿态特征信息与所述本端用户的初始姿态3D模型进行特征拟合,得到所述本端用户的人体姿态3D点云;
[0013]基于所述面部3D点云与所述人体姿态3D点云得到人像整体的3D VR图像;其中,所述人像整体的3D VR图像为所述本端用户的真实形象;
[0014]同步显示播放所述人像整体的3D VR图像和所述人声数据。
[0015]进一步地,所述提取所述人声数据对应的情绪特征信息和唇形特征信息,包括:
[0016]提取所述人声数据的音频特征向量;
[0017]将所述音频特征向量输入预先训练好的情绪识别模型中与多个情绪特征向量进行匹配,根据匹配结果输出所述人声数据对应的情绪特征信息;
[0018]将所述人声数据输入预先训练好的语音唇形拟合模型进行唇形拟合,得到所述人声数据对应的唇形特征信息。
[0019]进一步地,所述提取所述面部图像对应的AU特征信息,包括:
[0020]对所述面部图像进行图像预处理;
[0021]基于预处理后的面部图像检测人脸感兴趣区域;
[0022]按照所述初始人脸3D模型选取的特征点对检测出的所述人脸感兴趣区域进行特征点定位,确定所述面部图像的面部特征;
[0023]利用面部表情编码系统中的AU向量对所述面部特征进行编码,得到所述面部图像对应的AU特征信息。
[0024]进一步地,所述将所述AU特征信息、所述情绪特征向量、所述唇形特征信息与所述本端用户的初始人脸3D模型进行特征拟合,得到所述本端用户的面部3D点云,包括:
[0025]获取所述本端用户的初始人脸3D模型和第一初始坐标;其中,所述第一初始坐标是所述初始人脸3D模型中各面部特征点的初始坐标;
[0026]基于所述第一初始坐标、所述AU特征信息、所述情绪特征向量和所述唇形特征向量计算第一拟合坐标;其中,所述第一拟合坐标是所述各面部特征点的拟合后的坐标;
[0027]根据所述第一拟合坐标对所述初始人脸3D模型进行3D重构,得到所述本端用户的所述面部3D点云。
[0028]进一步地,所述将所述姿态特征信息与初始姿态3D模型进行所述本端用户的特征拟合,得到所述本端用户的人体姿态3D点云,包括:
[0029]获取所述本端用户的初始姿态3D模型和第二初始坐标;其中,所述第二初始坐标是所述初始姿态3D模型中的各关节部位特征点的初始坐标;
[0030]基于所述第二初始坐标和所述姿态特征信息计算第二拟合坐标;其中,所述第二拟合坐标是各关节部位特征点的拟合后的坐标;
[0031]根据所述第二拟合坐标对所述初始姿态3D模型进行重构,得到所述本端用户的所述人体姿态3D点云。
[0032]进一步地,所述获取本端用户的人声数据、面部图像和姿态信息之前,还包括:
[0033]采集所述本端用户无表情状态下的所述面部图像和所述面部3D点云;
[0034]对所述面部图像与所述面部3D点云进行配准,得到所述初始人脸3D模型和第一初始坐标;其中,所述第一初始坐标是所述初始人脸3D模型中各面部特征点的初始坐标;
[0035]采集所述本端用户正常站立状态下的身体各关节位置信息,得到所述初始姿态3D模型和第二初始坐标;其中,所述第二初始坐标是所述初始姿态3D模型中的各关节部位特征点的初始坐标;
[0036]将所述初始人脸3D模型、所述第一初始坐标、所述初始姿态3D模型和所述第二初始坐标存储至本地和云端。
[0037]本专利技术第二方面提出一种视频聊天方法,应用于接收端,所述方法包括以下步骤:
[0038]接收对端发送端发送的对端用户的人声数据、情绪特征信息、唇形特征信息、AU特征信息和姿态特征信息;
[0039]将所述情绪特征向量、所述唇形特征信息、所述AU特征信息与所述对端用户的初始人脸3D模型进行特征拟合,得到所述对端用户的面部3D点云;
[0040]将所述姿态特征信息与所述对端用户的初始姿态3D模型进行特征拟合,得到所述对端用户的人体姿态3D点云;
[0041]基于所述面部3D点云与所述人体姿态3D点云得到人像整体的3D VR图像;其中,所述人像整体的3D VR图像为所述对端用户的真实形象;
[0042]同步显示播放所述人像整体的3D VR图像和所述人声数据;
[0043]其中,所述对端发送端能够获取所述对端用户的所述人声数据、面部图像和姿态信息;
[0044]提取所述人声数据对应的所述情绪特征信息和所述唇形特征信息;
[0045]提取所述面部图像对应的所述AU特征信息;
[0046]提取所述姿态信息对应的所述姿态特征信息;
[0047]将所述人声数据、所述情绪特征信息、所述唇形特征信息、所述AU特征信息和所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频聊天方法,其特征在于,应用于发送端,所述方法包括:获取本端用户的人声数据、面部图像和姿态信息;提取所述人声数据对应的情绪特征信息和唇形特征信息;提取所述面部图像对应的AU特征信息;提取所述姿态信息对应的姿态特征信息;将所述人声数据、所述情绪特征信息、所述唇形特征信息、所述AU特征信息和所述姿态特征信息发送到对端接收端;其中,所述对端接收端能够接收所述人声数据、所述情绪特征信息、所述唇形特征信息、所述AU特征信息和所述姿态特征信息;将所述情绪特征向量、所述唇形特征信息、所述AU特征信息与所述本端用户的初始人脸3D模型进行特征拟合,得到所述本端用户的面部3D点云;将所述姿态特征信息与所述本端用户的初始姿态3D模型进行特征拟合,得到所述本端用户的人体姿态3D点云;基于所述面部3D点云与所述人体姿态3D点云得到人像整体的3D VR图像;其中,所述人像整体的3D VR图像为所述本端用户的真实形象;同步显示播放所述人像整体的3D VR图像和所述人声数据。2.根据权利要求1所述的方法,其特征在于,所述提取所述人声数据对应的情绪特征信息和唇形特征信息,包括:提取所述人声数据的音频特征向量;将所述音频特征向量输入预先训练好的情绪识别模型中与多个情绪特征向量进行匹配,根据匹配结果输出所述人声数据对应的情绪特征信息;将所述人声数据输入预先训练好的语音唇形拟合模型进行唇形拟合,得到所述人声数据对应的唇形特征信息。3.根据权利要求1所述的方法,其特征在于,所述提取所述面部图像对应的AU特征信息,包括:对所述面部图像进行图像预处理;基于预处理后的面部图像检测人脸感兴趣区域;按照所述初始人脸3D模型选取的特征点对检测出的所述人脸感兴趣区域进行特征点定位,确定所述面部图像的面部特征;利用面部表情编码系统中的AU向量对所述面部特征进行编码,得到所述面部图像对应的AU特征信息。4.根据权利要求1所述的方法,其特征在于,所述将所述AU特征信息、所述情绪特征向量、所述唇形特征信息与所述本端用户的初始人脸3D模型进行特征拟合,得到所述本端用户的面部3D点云,包括:获取所述本端用户的初始人脸3D模型和第一初始坐标;其中,所述第一初始坐标是所述初始人脸3D模型中各面部特征点的初始坐标;基于所述第一初始坐标、所述AU特征信息、所述情绪特征向量和所述唇形特征向量计算第一拟合坐标;其中,所述第一拟合坐标是所述各面部特征点的拟合后的坐标;根据所述第一拟合坐标对所述初始人脸3D模型进行3D重构,得到所述本端用户的所述
面部3D点云。5.根据权利要求1所述的方法,其特征在于,所述将所述姿态特征信息与初始姿态3D模型进行所述本端用户的特征拟合,得到所述本端用户的人体姿态3D点云,包括:获取所述本端用户的初始姿态3D模型和第二初始坐标;其中,所述第二初始坐标是所述初始姿态3D模型中的各关节部位特征点的初始坐标;基于所述第二初始坐标和所述姿态特征信息计算第二拟合坐标;其中,所述第二拟合坐标是各关节部位特征点的拟合后的坐标;根据所述第二拟合坐标对所述初始姿态3D模型进行重构,得到所述本端用户的所述人体姿态3D点云。6.根据权利要求1所述的方法,其特征在于,所述获取本端用户的人声数据、面部图像和姿态信息之前,还包括:采集所述本端用户无表情状态下的所述面部图像和所述面部3D点云;对所述面部图像与所述面部3D点云进行配准,得到所述初始人脸3D模型和第一初始坐标;其中,所述第一初始坐标是所述初始人脸3D模型中各面部特征点的初始坐标;采集所述本端用户正常站立状态下的身体各关节位置信息,得到所述初始姿态3D模型和第二初始坐标;其中,所述第...

【专利技术属性】
技术研发人员:郭成郭海欣张晨曦
申请(专利权)人:浙江西图盟数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1