一种3D数字人的音画同步方法及电子设备技术

技术编号:35181815 阅读:13 留言:0更新日期:2022-10-12 17:51
本申请提供一种3D数字人的音画同步方法及电子设备,用于同步3D数字人的3D驱动数据和音频数据,提高用户体验。包括:针对任一对象,利用预先设置好的RTP时间戳与NTP时间戳的对应关系,确定与该对象的音频数据中当前待播放的音频信号的RTP时间戳对应的NTP时间戳;将对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与当前待播放的音频信号的NTP时间戳进行比对,确定3D驱动数据是否与音频数据同步,其中,所述当前帧3D驱动数据的目标NTP时间戳是基于所述当前帧3D驱动数据的NTP时间戳得到的;若确定3D驱动数据与音频数据不同步,则对3D驱动数据进行帧调整,以使3D驱动数据与音频数据同步。频数据同步。频数据同步。

【技术实现步骤摘要】
一种3D数字人的音画同步方法及电子设备


[0001]本申请涉及虚拟现实
,尤其涉及一种3D数字人的音画同步方法及电子设备。

技术介绍

[0002]目前,随着5G(5th Generation Mobile Communication Technology,第五代移动通信技术)和XR(extended

range,扩展范围)技术的结合,三维重建技术正在飞速的发展。三维重建是指根据单视图或者多视图的图像重建三维信息的过程。三维重建技术分为离线和实时,离线三维重建技术是通过体积视频向用户展示提前录制好的三维重建后的3D数字人。而实时三维重建技术则是需要将实时采集的人体模型数据和驱动数据,通过网络传输到对端进行实时渲染并显示。基于三维重建的虚拟社交为应用场景,通过三维通讯系统,可以实现不同用户通过三维重建将各自的动态三维模型和驱动数据传输给其他用户,通过VR(Virtual Reality,虚拟现实)设备或者AR(Augmented Reality,增强现实)设备来达到身临其境的面对面交互的沉浸体验,有别于传统电话或者视频会议的通讯方式。
[0003]对用户进行三维重建后的三维数据分为模型数据和3D驱动数据。其中,模型数据是人体在静止状态下,通过深度摄像机360度拍摄人体后的点云以及纹理数据,3D驱动数据则是人体实时动作变化的数据,利用3D驱动数据来驱动人体模型数据。在3D驱动数据驱动人体模型数据的同时,会有语音交互。
[0004]但是,目前在Webrtc(Web Real

Time Communication,网页实时通信)中音频数据和视频数据都是通过SRTP(Secure Real

time Transport Protocol,安全实时传输协议)通道来进行传输的,并且配合SRTCP(Secure RTCP,安全实时传输协议)来实现音频数据和视频数据的同步,但是音频数据和3D驱动数据并没有进行同步,所以,会出现3D数字人的动作和嘴型无法匹配的情况。例如,3D数字人拍手,但是等待了几秒钟后才能听到拍手的声音。或者3D数字人说话的嘴型和听到的声音无法对应起来。由此,降低了用户体验。

技术实现思路

[0005]本申请提供了一种3D数字人的音画同步方法及电子设备,用于在不影响音频数据播放速度的技术上,来同步3D数字人的3D驱动数据和音频数据,以此来实现3D数字人的音画(声音和画面)同步,提高了用户的体验。
[0006]第一方面,本申请实施例提供一3D数字人的音画同步方法,所述方法包括:
[0007]针对任意一个对象,利用预先设置好的实时传输协议RTP时间戳与网络时间协议NTP时间戳的对应关系,确定与所述对象的音频数据中当前待播放的音频信号的RTP时间戳相对应的NTP时间戳;
[0008]将所述对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与所述当前待播放的音频信号的NTP时间戳进行比对,确定所述对象的3D驱动数据是否与所述对象的音频数据同步,其中,所述当前帧3D驱动数据的目标NTP时间戳是基于所述当前帧3D驱动数据
的NTP时间戳得到的,所述3D驱动数据是用于驱动所述对象的3D数字人进行运动的;
[0009]若确定所述对象的3D驱动数据与所述对象的音频数据不同步,则对所述对象的3D驱动数据进行帧调整,以使所述对象的3D驱动数据与所述音频数据同步。
[0010]本申请第二方面提供一种电子设备,包括处理器和存储器,所述处理器和所述存储器通过总线连接;
[0011]所述存储器中存储有计算机程序,所述处理器被配置为基于所述计算机程序执行以下操作:
[0012]针对任意一个对象,利用预先设置好的实时传输协议RTP时间戳与网络时间协议NTP时间戳的对应关系,确定与所述对象的音频数据中当前待播放的音频信号的RTP时间戳相对应的NTP时间戳;
[0013]将所述对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与所述当前待播放的音频信号的NTP时间戳进行比对,确定所述对象的3D驱动数据是否与所述对象的音频数据同步,其中,所述当前帧3D驱动数据的目标NTP时间戳是基于所述当前帧3D驱动数据的NTP时间戳得到的,所述3D驱动数据是用于驱动所述对象的3D数字人进行运动的;
[0014]若确定所述对象的3D驱动数据与所述对象的音频数据不同步,则对所述对象的3D驱动数据进行帧调整,以使所述对象的3D驱动数据与所述音频数据同步。
[0015]根据本专利技术实施例提供的第三方面,提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于执行如第一方面所述的方法。
[0016]本申请的上述实施例中,通过将所述对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与所述当前待播放的音频信号的NTP时间戳进行比对来确定所述对象的3D驱动数据是否与所述对象的音频数据同步,若确定所述对象的3D驱动数据与所述对象的音频数据不同步,则对所述对象的3D驱动数据进行帧调整,以使所述对象的3D驱动数据与所述音频数据同步。由此,本申请是在不影响音频数据的播放速率的基础上,来同步对象的音频数据和3D驱动数据,以实现对象的音画同步,提高了用户的体验。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1示例性示出了本申请实施例提供的应用场景示意图;
[0019]图2示例性示出了本申请实施例提供的3D数字人的音画同步方法的流程图之一;
[0020]图3示例性示出了本申请实施例提供的数据缓冲区的示意图之一;
[0021]图4示例性示出了本申请实施例提供的数据缓冲区的示意图之二;
[0022]图5示例性示出了本申请实施例提供的RTP时间戳和NTP时间戳的对应关系示意图;
[0023]图6示例性示出了本申请实施例提供的3D数字人的音画同步方法的流程图之二;
[0024]图7示例性示出了本申请实施例提供的3D数字人的音画同步方法的示意图;
[0025]图8示例性示出了本申请实施例提供的3D数字人的音画同步方法的效果图;
[0026]图9示例性示出了本申请实施例提供的用户的终端界面示意图之一;
[0027]图10示例性示出了本申请实施例提供的设置显示界面的界面示意图;
[0028]图11示例性示出了本申请实施例提供的用户的终端界面示意图之二;
[0029]图12示例性示出了本申请实施例提供的用户的终端界面示意图之三;
[0030]图13示例性示出了本申请实施例提供的用户的终端界面示意图之四;
[0031]图14示例性示出了本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种3D数字人的音画同步方法,其特征在于,所述方法包括:针对任意一个对象,利用预先设置好的实时传输协议RTP时间戳与网络时间协议NTP时间戳的对应关系,确定与所述对象的音频数据中当前待播放的音频信号的RTP时间戳相对应的NTP时间戳;将所述对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与所述当前待播放的音频信号的NTP时间戳进行比对,确定所述对象的3D驱动数据是否与所述对象的音频数据同步,其中,所述当前帧3D驱动数据的目标NTP时间戳是基于所述当前帧3D驱动数据的NTP时间戳得到的所述3D驱动数据是用于驱动所述对象的3D数字人进行运动的;若确定所述对象的3D驱动数据与所述对象的音频数据不同步,则对所述对象的3D驱动数据进行帧调整,以使所述对象的3D驱动数据与所述音频数据同步。2.根据权利要求1所述的方法,其特征在于,所述将所述对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与所述当前待播放的音频信号的NTP时间戳进行比对,确定所述对象的3D驱动数据是否与所述对象的音频数据同步,包括:若所述当前待播放的音频信号的NTP时间戳与所述当前帧3D驱动数据的目标NTP时间戳的绝对差值大于指定阈值,则确定所述对象的3D驱动数据与所述对象的音频数据不同步;若所述当前待播放的音频信号的NTP时间戳与所述当前帧3D驱动数据的目标NTP时间戳的差值不大于指定阈值,则确定所述对象的3D驱动数据与所述对象的音频数据同步。3.根据权利要求1所述的方法,其特征在于,所述对所述对象的3D驱动数据进行帧调整,包括:若所述当前待播放的音频信号的NTP时间戳超前所述当前帧3D驱动数据的目标NTP时间戳,则丢掉所述对象的3D驱动数据中的当前帧3D驱动数据,并将所述当前帧3D驱动数据的下一帧3D驱动数据确定为当前帧3D驱动数据后,重新比对所述对象的3D驱动数据中的当前帧3D驱动数据的目标NTP时间戳与所述当前待播放的音频信号的NTP时间戳,直至所述对象的3D驱动数据与所述对象的音频数据同步;或,若所述当前帧3D驱动数据的目标NTP时间戳超前所述待播放的音频信号的NTP时间戳,则降低所述对象的3D驱动数据的帧率,直至所述对象的3D驱动数据与所述对象的音频数据同步。4.根据权利要求3所述的方法,其特征在于,所述降低所述对象的3D驱动数据的帧率,包括:按照设定帧间隔从所述对象的3D驱动数据中获取目标3D驱动数据,其中,所述目标3D驱动数据为驱动3D数字人进行渲染的3D驱动数据。5.根据权利要求3所述的方法,其特征在于,所述对象的3D驱动数据存储在数据缓冲区;所述丢掉所述对象的3D驱动数据中的当前帧3D驱动数据之前,所述方法还包括:确定所述数据缓冲区中的3D驱动数据的帧数大于指定帧数。6.根据权利要求1~3中任一所述的方法,其特征在于,通过以下方式确定所述当前帧3D驱动数据的目标NTP时间戳:将所述当前帧3D...

【专利技术属性】
技术研发人员:位言东
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1