联合直播方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:33147190 阅读:11 留言:0更新日期:2022-04-22 13:59
本公开是关于一种联合直播方法、装置、电子设备及存储介质,该方法包括:获取当前直播账户的当前直播语音和当前直播图像,以及,远程直播账户的远程直播语音;远程直播账户为与当前直播账户进行联合直播的账户;对当前直播语音和远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音;基于目标当前直播语音和目标远程直播语音对预设的虚拟形象进行驱动,得到驱动后的目标虚拟形象;展示当前直播图像和目标虚拟形象,以及,播放目标当前直播语音和目标远程直播语音。本公开降低了联合直播的门槛,提高了联合直播的通用性;减少了传输的数据量,提高了数据传输的可控性;提升了联合直播的稳定性。提升了联合直播的稳定性。提升了联合直播的稳定性。

【技术实现步骤摘要】
联合直播方法、装置、电子设备及计算机可读存储介质


[0001]本公开涉及互联网
,尤其涉及联合直播方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着互联网的快速发展,直播形态的普及覆盖率越来越高,承载了内容娱乐,社交,电商带货等多种业务场景。过往情况中,为了活跃直播间气氛,促进账户侧互动与付费,开播方,也称主播,一般采用隔框的真人连麦互动,比起主播单人直播效果提升是很显著的,缺点是沉浸感不足。随着技术进步发展,不少主播采用虚拟形象代替真人出镜实时开播,可以较好地通过程序化进行多虚拟形象同画面(同台)互动,下称为多人(虚拟人)联动。
[0003]相关技术中,为了能让多个虚拟形象在同一直播间(画面里)联动,多个主播连接到同一服务器房间,视频画面上,每个主播进行面部表情捕捉,并通过服务器传输实时表情的相关参数、鼠标键盘操作的特殊动作/特殊表情键值等,在每个主播开播客户端进行渲染;音频上,采用低延时语音工具传输音频,在每个主播开播客户端混音后,和画面一起流媒体封装通过推流软件推出,如图1所示。
[0004]但是,这种方案存在以下缺陷:
[0005]1)由于是音频和视频画面的处理需要经过不同的路由,且中间没有同步机制,存在画面和声音不同步的情况;
[0006]2)由于每个主播的相关参数、特殊表情和动作键值等,都需要传输到参与的主播的机器上,当同一服务器房间主播人数增多,或者需要传输的参数信息较多(如运动剧烈帧率需求高,或复杂3d模型的实时肢体驱动参数传输等)时,将出现严重卡顿的情况;
[0007]3)由于部分主播保密隐私的需求,不愿意开摄像头进行正面捕捉,或者开了摄像头但没有对正脸部时,上述方案的体验将大打折扣或者直接无法应用。
[0008]在另一相关技术中,当多账户进行联合直播时,除了直播间主视角的账户的虚拟形象可以展示动画动效,其它联合直播的参与者则采用静态图像的形式展示在画面中,同时配以游戏、视频画面等其他直播内容。由于这种方案中其它参与者的虚拟形象是静止的静态图像,所以,完全无法实现实时响应的互动效果。

技术实现思路

[0009]为克服相关技术中存在的问题,本公开提供一种联合直播方法、装置、电子设备及存储介质。本公开的技术方案如下:
[0010]根据本公开实施例的第一方面,提供一种联合直播方法,包括:
[0011]获取当前直播账户的当前直播语音和当前直播图像,以及,远程直播账户的远程直播语音;所述远程直播账户为与所述当前直播账户进行联合直播的账户;
[0012]对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音;
[0013]基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动,得到驱动后的目标虚拟形象;
[0014]展示所述当前直播图像和所述目标虚拟形象,以及,播放所述目标当前直播语音和所述目标远程直播语音。
[0015]可选的,所述对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音,包括:
[0016]对所述当前直播语音和所述远程直播语音分别进行降噪处理,得到降噪后的当前直播语音和降噪后的远程直播语音;
[0017]对所述降噪后的当前直播语音和所述降噪后的远程直播语音分别进行对象声音提取,得到目标当前直播语音和目标远程直播语音。
[0018]可选的,在所述对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音之前,还包括:
[0019]获取所述当前直播账户的第一虚拟形象标识,以及,所述远程直播账户的第二虚拟形象标识;
[0020]所述基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动,得到驱动后的目标虚拟形象,包括:
[0021]确定出与所述第一虚拟形象标识对应的第一虚拟形象,以及,与所述第二虚拟形象标识对应的第二虚拟形象;
[0022]采用所述目标当前直播语音对所述第一虚拟形象进行驱动,得到驱动后的第一目标虚拟形象,以及,采用所述目标远程直播语音对所述第二虚拟形象进行驱动,得到驱动后的第二目标虚拟形象。
[0023]可选的,所述采用所述目标当前直播语音对所述第一虚拟形象进行驱动,得到驱动后的第一目标虚拟形象,以及,采用所述目标远程直播语音对所述第二虚拟形象进行驱动,得到驱动后的第二目标虚拟形象,包括:
[0024]基于自动语音识别、自然语言处理、语音合成中的至少一项,采用所述目标当前直播语音驱动所述第一虚拟形象的预设动画逻辑,得到驱动后的第一目标虚拟形象,以及,采用所述目标远程直播语音驱动所述第二虚拟形象的预设动画逻辑,得到驱动后的第二目标虚拟形象。
[0025]可选的,在所述对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音之前,还包括:
[0026]将所述当前直播语音和所述当前直播账户的第一虚拟形象标识发送至所述远程直播账户。
[0027]根据本公开实施例的第二方面,提供一种联合直播装置,包括:
[0028]获取单元,被配置为获取当前直播账户的当前直播语音和当前直播图像,以及,远程直播账户的远程直播语音;所述远程直播账户为与所述当前直播账户进行联合直播的账户;
[0029]语音处理单元,被配置为对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音;
[0030]驱动单元,被配置为基于所述目标当前直播语音和所述目标远程直播语音对预设
的虚拟形象进行驱动,得到驱动后的目标虚拟形象;
[0031]输出单元,被配置为展示所述当前直播图像和所述目标虚拟形象,以及,播放所述目标当前直播语音和所述目标远程直播语音。
[0032]可选的,所述语音处理单元,包括:
[0033]降噪子单元,被配置为对所述当前直播语音和所述远程直播语音分别进行降噪处理,得到降噪后的当前直播语音和降噪后的远程直播语音;
[0034]声音提取子单元,被配置为对所述降噪后的当前直播语音和所述降噪后的远程直播语音分别进行对象声音提取,得到目标当前直播语音和目标远程直播语音。
[0035]可选的,所述获取单元,还被配置为:
[0036]在所述对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音之前,获取所述当前直播账户的第一虚拟形象标识,以及,所述远程直播账户的第二虚拟形象标识;
[0037]所述驱动单元,包括:
[0038]确定子单元,被配置为确定出与所述第一虚拟形象标识对应的第一虚拟形象,以及,与所述第二虚拟形象标识对应的第二虚拟形象;
[0039]驱动子单元,被配置为采用所述目标当前直播语音对所述第一虚拟形象进行驱动,得到驱动后的第一目标虚拟形象,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合直播方法,其特征在于,包括:获取当前直播账户的当前直播语音和当前直播图像,以及,远程直播账户的远程直播语音;所述远程直播账户为与所述当前直播账户进行联合直播的账户;对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音;基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动,得到驱动后的目标虚拟形象;展示所述当前直播图像和所述目标虚拟形象,以及,播放所述目标当前直播语音和所述目标远程直播语音。2.根据权利要求1所述的联合直播方法,其特征在于,所述对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音,包括:对所述当前直播语音和所述远程直播语音分别进行降噪处理,得到降噪后的当前直播语音和降噪后的远程直播语音;对所述降噪后的当前直播语音和所述降噪后的远程直播语音分别进行对象声音提取,得到目标当前直播语音和目标远程直播语音。3.根据权利要求1所述的联合直播方法,其特征在于,在所述对所述当前直播语音和所述远程直播语音进行语音处理,得到处理后的目标当前直播语音和目标远程直播语音之前,还包括:获取所述当前直播账户的第一虚拟形象标识,以及,所述远程直播账户的第二虚拟形象标识;所述基于所述目标当前直播语音和所述目标远程直播语音对预设的虚拟形象进行驱动,得到驱动后的目标虚拟形象,包括:确定出与所述第一虚拟形象标识对应的第一虚拟形象,以及,与所述第二虚拟形象标识对应的第二虚拟形象;采用所述目标当前直播语音对所述第一虚拟形象进行驱动,得到驱动后的第一目标虚拟形象,以及,采用所述目标远程直播语音对所述第二虚拟形象进行驱动,得到驱动后的第二目标虚拟形象。4.根据权利要求3所述的联合直播方法,其特征在于,所述采用所述目标当前直播语音对所述第一虚拟形象进行驱动,得到驱动后的第一目标虚拟形象,以及,采用所述目标远程直播语音对所述第二虚拟形象进行驱动,得到驱动后的第二目标虚拟形象,包括:基于自动语音识别、自然语言处理、语音合成中的至少一项,采用所述目标当前直播语音...

【专利技术属性】
技术研发人员:胡小华
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1