一种基于制造技术

技术编号:39643614 阅读:7 留言:0更新日期:2023-12-09 11:11
本发明专利技术公开一种基于

【技术实现步骤摘要】
一种基于WebRTC的实时同步数字人音频与画面的方法


[0001]本专利技术涉及
WebRTC

,尤其涉及一种基于
WebRTC
的实时同步数字人音频与画面的方法


技术介绍

[0002]实时音视频
(WebRTC)
是指通过点对点的方式,在不借助中间媒介的情况下,实现浏览器之间的实时音视频通信
(
视频通话

实时交互
)
,同时也不仅限于浏览器间点对点通信,任一浏览器可以跟任一视频源实时通信
(
双方支持
WebRTC)。
在现有的
WebRTC
生态中,
WebRTC
主要应用场景是一对一

多对多语音
/
视频聊天,主要是传输音视频流,在实时交互领域,交互动作与数字人的数字人脸动作时常因为网络时延等原因,会出现某一方延迟等不同步的情况

如果连续持续多个相似的情况,整个交互将会变得不可用

[0003]因此,现有技术存在缺陷,需要改进


技术实现思路

[0004]本专利技术要解决的技术问题是:提供一种基于
WebRTC
的实时同步数字人音频与画面的方法,避免数字人脸动作与音频不一致

[0005]本专利技术的技术方案如下:提供一种基于
WebRTC
的实时同步数字人音频与画面的方法,包括以下步骤

[0006]S1

Web
端与推流服务器建立
WebRTC
连接,
Web
端接收推流服务器推送过来的实时画面以及互传就绪
/
开始
/
结束指令

[0007]S2
:应用端与后端服务器建立
WebSocket
连接,应用端接收后端服务器传送的脸部数据,并将脸部数据转换成数字人脸动作

[0008]S3

Web
端与后端服务器建立
WebSocket
连接,接收后端服务器传送的音频数据

[0009]S4

Web
端接收后端服务器传来的音频数据,应用端接收到后端服务器的脸部数据并发送就绪指令“ready”给
Web
端,当
Web
端检测到音频数据以及脸部数据就绪的指令后,
Web
端发送开始指令“start”给应用端,应用端开始执行脸部数据获得数字人脸动作;推流服务器抓取数字人脸动作并推送给
web
端,
Web
端同时播放音频数据,达到音画同步的效果

[0010]S5

Web
端实时检测音频数据是否播放结束,并同时检测是否接收到应用端的数字人脸动作结束指令“end”,当检测到任一结束信息,立即发送结束指令“end”到未停止方,强制停止;达到音画同步结束的效果

[0011]S6
:循环执行
S1

S5
,直到
Web
端断开或者应用端断开,
Web
端关闭音频播放以及断开
WebRTC
连接
、WebSocket
连接,应用端结束运行进程

[0012]数字人脸是通过采集人脸的动作,然后将人脸转换成数字人的技术,常用于直播中的二次元人物模拟,动画电影制作中

普通人接触的最多的是直播中,比如直播中的一些二次元特效应用

现有的方式是数字人脸的应用端采集人脸,然后应用端将人脸转换成数字人脸,推流服务器接着将数字人脸和音频数据一同推流给
web

(
也即观看直播的用户

)
,但这种方式十分容易导致数字人脸的动作和音频数据处于不同步情况,极大的影响了用于体验

[0013]在本方案中,后端服务器直接将音频数据传送给
web
端,应用端接收到后端服务器的脸部数据并发送就绪指令“ready”给
Web
端,当
Web
端检测到音频数据以及脸部数据就绪的指令后,
Web
端发送开始指令“start”给应用端,应用端开始执行脸部数据获得数字人脸动作;推流服务器抓取数字人脸动作并推送给
web
端,
Web
端同时播放音频数据,达到音画同步的效果,避免出现数字人脸动作与音频数据不一致的情况,极大的提升用户体验

[0014]进一步地,所述应用端安装在推流服务器中

[0015]进一步地,所述基于
WebRTC
的实时同步数字人音频与画面的方法,还包括:音频数据时间点校正过程;具体包括:所述步骤
S2
为:应用端与后端服务器建立
WebSocket
连接,应用端接收后端服务器传送的脸部数据
、A
时间段的音频数据,并将脸部数据转换成数字人脸动作,将数字人脸动作
、A
时间段的音频数据组成播放音视频;所述步骤
S4
为:
Web
端接收后端服务器传来的音频数据,应用端接收到后端服务器的脸部数据以及
A
时间段的音频数据并发送就绪指令“ready”给
Web
端,当
Web
端检测到音频数据以及脸部数据就绪的指令后,
Web
端发送开始指令“start”给应用端,应用端开始执行脸部数据获得数字人脸动作,并将数字人脸动作与
A
时间段的音频数据组成播放音视频;推流服务器抓取播放音视频并推送给
web
端,
web
端将先前获得的音频数据与播放音视频的
A
时间段的音频数据进行时间点校正,将先前获得的音频数据的
A
时间段端的音频数据与播放音视频的
A
时间段的音频数据处于同一个时间段,然后
Web
端同时播放音频数据以及数字人脸动作,达到音画同步的效果

所述
A
时间段为开头时间段

保证播放同步,采用开头时间段的音频数据,可以减少数据传输,提升稳定性,流畅度

[0016]进一步地,
A
时间段的音频数据的时间
t
的范围为
0s

t≤0.3s。
优选的,
0s

t≤0.1s。
[0017]进一步地,所述
A
时间段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
WebRTC
的实时同步数字人音频与画面的方法,其特征在于,包括以下步骤:
S1

Web
端与推流服务器建立
WebRTC
连接,
Web
端接收推流服务器推送过来的实时画面以及互传就绪
/
开始
/
结束指令;
S2
:应用端与后端服务器建立
WebSocket
连接,应用端接收后端服务器传送的脸部数据,并将脸部数据转换成数字人脸动作;
S3

Web
端与后端服务器建立
WebSocket
连接,接收后端服务器传送的音频数据;
S4

Web
端接收后端服务器传来的音频数据,应用端接收到后端服务器的脸部数据并发送就绪指令给
Web
端,当
Web
端检测到音频数据以及脸部数据就绪的指令后,
Web
端发送开始指令给应用端,应用端开始执行脸部数据获得数字人脸动作;推流服务器抓取数字人脸动作并推送给
web
端,
Web
端同时播放音频数据,达到音画同步的效果;
S5

Web
端实时检测音频数据是否播放结束,并同时检测是否接收到应用端的数字人脸动作结束指令,当检测到任一结束信息,立即发送结束指令到未停止方,强制停止;达到音画同步结束的效果
。2.
根据权利要求1所述的一种基于
WebRTC
的实时同步数字人音频与画面的方法,其特征在于,还包括:
S6
:循环执行
S1

S5
,直到
Web
端断开或者应用端断开,
Web
端关闭音频播放以及断开
WebRTC
连接
、WebSocket
连接,应用端结束运行进程
。3.
根据权利要求1所述的一种基于
WebRTC
的实时同步数字人音频与画面的方法,其特征在于,所述应用端安装在推流服务器中
。4.
根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:黄志谋高斌邹琼周双全
申请(专利权)人:深圳市瑞云科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1