基于多模态的虚拟主播系统及方法技术方案

技术编号:27581562 阅读:16 留言:0更新日期:2021-03-09 22:36
本发明专利技术属于人工智能技术领域,尤其涉及一种基于多模态的虚拟主播系统及方法。该系统包括:建模单元,用于创建虚拟主播角色模型;采集单元,用于采集演绎数据,演绎数据包括动作数据、表情数据及语音数据;分析单元,用于根据演绎数据进行情感分析,得到当前情绪;存储单元,用于存储摄录的视频画面;合成单元,用于将声音数据虚拟化得到语音数据,并将当前情绪与语音数据进行关联得到播放语音;还用于将肢体动作和面部表情数据与虚拟主播角色模型进行关联,令虚拟主播角色模型按照动作数据执行相应动作;还用于将虚拟主播角色模型和声音数据叠加至摄录的视频画面中。本系统可以尽可能的规避由于直播人员个人原因给平台造成的损失。避由于直播人员个人原因给平台造成的损失。避由于直播人员个人原因给平台造成的损失。

【技术实现步骤摘要】
基于多模态的虚拟主播系统及方法


[0001]本专利技术属于人工智能
,尤其涉及一种基于多模态的虚拟主播系统及方法。

技术介绍

[0002]当前,观看主播直播已经成为了很多人的娱乐习惯,在忙完一天的工作和家庭生活后,人们都乐于抽空看直播放松娱乐一下。
[0003]目前火爆的直播平台,都是主要依靠明星主播,通过这些头部主播来获取流量。但是,这些真人主播由于个人原因,通常会有一系列的不可控因素,如主播可能在获得人气后跳槽到别的平台、主播精力有限难以长时间的连续进行高质量直播等等。这些不可控因素一旦朝着负面方向发展,就会导致直播平台的直播质量不稳定,给平台造成损失。
[0004]因此,需要一种基于多模态的虚拟主播系统及方法,可以尽可能的使直播平台的直播质量保持稳定。

技术实现思路

[0005]本专利技术的目的在于,提供一种基于多模态的虚拟主播系统及方法,可以尽可能的使直播平台的直播质量保持稳定。
[0006]本专利技术提供的基础方案为:
[0007]基于多模态的虚拟主播系统,包括:
[0008]建模单元,用于根据接收的角色数据信息,创建对应的虚拟主播角色模型;
[0009]采集单元,用于采集操作人员的演绎数据,演绎数据包括动作数据、表情数据及语音数据;
[0010]分析单元,用于根据演绎数据进行情感分析,得到当前情绪;
[0011]存储单元,用于存储摄录的视频画面;
[0012]合成单元,用于将声音数据虚拟化得到语音数据,并将当前情绪与语音数据进行关联得到播放语音;还用于将肢体动作和面部表情数据与虚拟主播角色模型进行关联,令虚拟主播角色模型按照动作数据执行相应动作;还用于将虚拟主播角色模型和声音数据叠加至摄录的视频画面中后合成得到虚拟主播角色视频画面。
[0013]基础方案工作原理及有益效果:
[0014]本系统在采集操作人员的演绎数据后,并非直接将演绎数据简单的与虚拟主播模型进行结合,而是通过分析单元根据演绎数据进行情感分析,得到当前情绪后,将当前情绪与语音数据进行关联得到播放语音。这样,可以增强虚拟主播的稳定性与一致性。由于每个人的音色和语调都存在差异,直接将其变音后与虚拟主播模型进行结合,当更换操作人员后,还是很容易感到不同操作人员之间的区别。这种由操作人员的声音而导致的直播差异化,容易使得同一个虚拟主播的观看者会出现多个不同的“阵营”,即支持不同的操作人员。这就和真人主播的区别不是特别大了,只是由真人主播的个人影响力变成了操作人员的个
人影响力。
[0015]而本申请中,通过分析单元根据演绎数据进行情感分析,得到当前情绪后,将当前情绪与语音数据进行关联得到播放语音。这样得到的语音,无论是语气还是声调,由于都是提前设置好的,即使在不同的时段由不同的操作人员进行内容制作,播放时,语气及声调都是一致的。能够保证虚拟主播的稳定性与一致性。
[0016]这样,一个虚拟主播可以由多个人交替演绎,可解决真人主播由于精力有限难以连续进行长时间高质量直播的问题。同时,使用本系统,由于能够保证虚拟主播的一致性,即使虚拟主播的操作人员出现跳槽等行为,也不会影响后虚拟主播的人气,平台不会因此而受到影响。
[0017]综上,使用本系统,可以尽可能的使直播平台的直播质量保持稳定。
[0018]进一步,存储单元内设有气氛调节库,气氛调节库内预存有多个气氛特效包;合成单元还用于根据当前情绪匹配出对应的气氛特效包,并将气氛特效包与主播角色视频画面进行合成。
[0019]系统会根据当前的情绪,自动匹配出对应的气氛特效包与主播角色视频画面进行合成,可以使直播效果更好。
[0020]进一步,分析单元还用于对当前情绪进行评级;当前情绪的评级大于预设等级时,合成单元根据当前情绪匹配对应的气氛特效包。
[0021]气氛特效包使用得太多太密,很多时候反而会引起观众的反感,这样设置后,对情绪等级进行了一个筛选,只有当情绪等级大于预设等级时,才会使用情绪特效包。从而达到自动合理使用气氛特效包的效果。
[0022]进一步,还包括补充单元,用于输入补充情绪;当补充单元输入情绪补充时,合成单元将补充情绪与语音数据进行关联,得到播放语音。
[0023]有时为了直播效果,情绪上的起伏可能会比较剧烈;当操作人员认为自己当前的状态不能很好的将该情绪表达出来时,可通过补充单元输入补充情绪。使虚拟主播直播时的声音效果更好。
[0024]进一步,补充单元还用于在输入补充情绪时,输入情绪等级。
[0025]便于更好的突出情绪效果。
[0026]进一步,当补充单元仅输入补充情绪,未输入情绪等级时,合成单元按照预设的情绪等级将补充情绪与语音数据进行关联,得到播放语音。
[0027]进一步,补充单元还用于调用气氛特效包;合成单元还用于在补充单元调用气氛特效包后,将调用的气氛特效包与主播角色视频画面进行合成。
[0028]便于操作人员根据和观众的互动,及时进行对应气氛的烘托。
[0029]进一步,视频画面有多个,补充单元还用于选择视频画面。
[0030]视频画面相当于虚拟主播所处的环境,存储单元存储多个视频画面,并通过补充单元灵活选择,可以有效的利用虚拟主播实时合成的特点,根据直播的实际需求,便捷的改变视频画面,进而使虚拟主播在不同的直播环境中的切换。
[0031]进一步,补充单元还用于增加及删除气氛调节库内的气氛特效包。
[0032]可以通过补充单元对气氛特效包进行更新、升级。
[0033]本专利技术提供基础方案二:基于多模态的虚拟主播方法,使用上述基于多模态的虚
拟主播系统。
附图说明
[0034]图1为本专利技术实施例一的逻辑框图。
具体实施方式
[0035]下面通过具体实施方式进一步详细说明:
[0036]实施例一
[0037]如图1所示,基于多模态的虚拟主播系统,包括建模单元、采集单元、分析单元、存储单元、补充单元和合成单元。
[0038]建模单元用于根据接收的角色数据信息,创建对应的虚拟主播角色模型。
[0039]采集单元用于采集操作人员的演绎数据,演绎数据包括动作数据、表情数据及语音数据。具体的,可以通过动作捕捉装置来实时捕捉操作人员的肢体动作数据,通过面部表情捕捉器来实时捕捉操作人员的面部表情动作数据,通过拾音器实时采集操作人员的声音数据。
[0040]分析单元用于根据演绎数据进行情感分析,得到当前情绪;分析单元还用于对当前情绪进行评级。
[0041]存储单元用于存储摄录的视频画面;存储单元内还设有气氛调节库,气氛调节库内预存有多个气氛特效包。气氛特效包,即能够烘托气氛的声光特效,通过合理使用,可以有效的增强直播的氛围。
[0042]补充单元用于输入补充情绪,还用于在输入补充情绪时输入情绪等级。
[0043]合成单元用于将声音数据虚拟化得到语音数据,并将当前情绪与语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态的虚拟主播系统,其特征在于,包括:建模单元,用于根据接收的角色数据信息,创建对应的虚拟主播角色模型;采集单元,用于采集操作人员的演绎数据,演绎数据包括动作数据、表情数据及语音数据;分析单元,用于根据演绎数据进行情感分析,得到当前情绪;存储单元,用于存储摄录的视频画面;合成单元,用于将声音数据虚拟化得到语音数据,并将当前情绪与语音数据进行关联得到播放语音;还用于将肢体动作和面部表情数据与虚拟主播角色模型进行关联,令虚拟主播角色模型按照动作数据执行相应动作;还用于将虚拟主播角色模型和声音数据叠加至摄录的视频画面中后合成得到虚拟主播角色视频画面。2.根据权利要求1所述的基于多模态的虚拟主播系统,其特征在于:存储单元内设有气氛调节库,气氛调节库内预存有多个气氛特效包;合成单元还用于根据当前情绪匹配出对应的气氛特效包,并将气氛特效包与主播角色视频画面进行合成。3.根据权利要求2所述的基于多模态的虚拟主播系统,其特征在于:分析单元还用于对当前情绪进行评级;当前情绪的评级大于预设等级时,合成单元根据当前情绪匹配对应的气氛特效包。4.根据权利要...

【专利技术属性】
技术研发人员:王晶
申请(专利权)人:重庆空间视创科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1