虚拟主播合成方法、装置、计算机设备、可读存储介质制造方法及图纸

技术编号:37331950 阅读:22 留言:0更新日期:2023-04-21 23:09
本申请实施例提供一种虚拟主播合成方法、装置、计算机设备、可读存储介质。虚拟主播合成方法包括:预先建立人偶动作库,人偶动作库中存储与多组人偶动作形态一一对应的多个三维动作数据包,将整篇新闻文稿自动生成语音包,在整篇新闻文稿中的每句需要插入人偶动作形态的新闻文稿中均插入人偶动作库中多个三维动作数据包中的一个三维动作数据包,使得根据语音包和插入至整篇新闻文稿中的所有人偶动作形态对应的三维动作数据包按照第一时间戳与第三时间戳的对应关系进行动画合成,生成虚拟主播。本申请的技术方案中,可以达到自动化生产虚拟主播的效果,生成周期较短,能够满足日常化、大批量、长时段的新闻播报要求,大幅减少生产成本。少生产成本。少生产成本。

【技术实现步骤摘要】
虚拟主播合成方法、装置、计算机设备、可读存储介质


[0001]本申请实施例涉及通信领域,尤其涉及一种虚拟主播合成方法、装置、计算机设备、可读存储介质。

技术介绍

[0002]虚拟主播是使用虚拟形象在视频节目中出场的虚拟人物。虚拟主播用于视频节目,可以替代人工主持人播报新闻、播报天气预报、完成串场解说或主持等。虚拟主播还可应用于视频直播或客户服务,以替代人工与观众或客户进行视频交互。虚拟主播替代人工,可以解决人工成本高、工作质量不稳定等问题。
[0003]现有技术中,虚拟人物的造型大多通过真人驱动的方式来实现,例如目前国内推出的一些唱跳类虚拟人物,较为知名的包括湖南卫视虚拟主持人“小漾”,以及“洛天依”、“柳夜熙”、“AYAYI”,等。这一类虚拟人物主要向观众展示舞蹈动作,说唱时的面部表情和唇音同步还不够逼真。
[0004]现有技术中,虚拟主播(或虚拟主持人)通常没有肢体动作配合,而是仅有头部动作以及配合语音播报时的口型变化,如央视的“康晓辉”、人民日报的“果果”,等。
[0005]通常,每次生成动态播报的虚拟主播都要依赖一套复杂的采集装置和特定的设备,常用的动作捕捉技术通常有光学动捕,惯性动捕和AR面捕等方式,通过唇音同步、动画表情生成等技术合成虚拟主播的动画形象。如中国专利技术专利《一种语音驱动的人脸动画生成方法及系统》有披露:“当人脸形象以视频形式给出时,由于视频中的人脸图像已经具有自然的头部运动,因此可根据训练好的A2FGAN模型直接生成人脸动画。”此种技术手段即俗称的“换脸”,是对一段预先录制好的头部运动视频进行脸部表情替换,达到唇音同步的效果。但由于预先录制的头部运动视频未必完全贴合播报的内容,例如有可能出现播报停顿时头部仍在左右摆动的情况,或出现应该点头示意时头部却没有动作的情况,因此每次生成动态播报的虚拟主播都需要人工进行后期编辑与合成,无法实现自动生成。
[0006]目前的虚拟主播技术存在如下技术问题:生成虚拟主播的方式没有达到自动化生产的效果,实现步骤较为复杂,生成周期较长,后期制作所需投入的人工成本较高,而且生产效率较低。由于缺乏肢体动作的配合,播报过程给观众的感觉较为呆板;唇音同步的人脸动画技术尚不够完美,在长时间播报过程中难免出现几次唇形和语音不一致的情况,如果被观众注意到则会影响观看感受;虚拟主播语音播报时难以按照播报内容的感情色彩配合相应的表情动作,观众长时间观看会感觉虚拟主播表情呆板。可见,虚拟主播的现有技术难以满足新闻播报的日常化、大批量、长时段等要求。

技术实现思路

[0007]本申请提供了一种虚拟主播合成方法、装置、计算机设备、可读存储介质,克服了现有技术存在的问题或者至少部分地解决了上述问题。
[0008]本申请的第一方面,提供了一种虚拟主播合成方法,该虚拟主播合成方法包括:预
先建立人偶动作库,人偶动作库中存储与多组人偶动作形态一一对应的多个三维动作数据包以及与多组人偶动作形态一一对应的多个命名,每个三维动作数据包用于合成一组对应的人偶动作形态;将整篇新闻文稿自动生成语音包,语音包用于合成播报的语音,语音包带有多个第一时间戳,多个第一时间戳与整篇新闻文稿中每句新闻文稿的多个第二时间戳一一对应;搭建用于在整篇新闻文稿中插入动作脚本的编辑界面,并且编辑界面所在窗口带有用于插入动作脚本的选择器;在编辑界面接收到选择器被选中的第一指令时,调用并显示根据人偶动作库中所有三维动作数据包生成的多组人偶动作形态的选择界面,在选择界面接收到多组人偶动作形态中的任一组人偶动作形态被选中的第二指令时,根据第一指令的指示将被选中的一组人偶动作形态插入至整篇新闻文稿中的指定位置,并且在指定位置生成脚本,脚本用于指示被选中的一组人偶动作形态的命名和与指定位置对应的一句新闻文稿相匹配的第三时间戳,直到整篇新闻文稿中需要插入多组人偶动作形态中的一组人偶动作形态的每句新闻文稿均插入一组人偶动作形态;根据语音包和插入至整篇新闻文稿中的所有人偶动作形态对应的三维动作数据包按照第一时间戳与第三时间戳的对应关系进行动画合成,生成虚拟主播。
[0009]在一种可选的方式中,预先建立人偶动作库的步骤具体包括:建立具有基本骨架的虚拟人偶模型;基于虚拟人偶模型的基本骨架设定多组不同的人偶动作形态;分别建立多组人偶动作形态和多个预设时间段的一一对应关系,将一一对应关系进行存储形成人偶动作库;根据一一对应关系分别采集与多组人偶动作形态一一对应的三维动作数据包,并且每组人偶动作形态均对应一个命名;将所有的人偶动作形态、三维动作数据包以及命名按照一一对应的方式存储至人偶动作库。
[0010]在一种可选的方式中,根据一一对应关系分别采集与多组人偶动作形态一一对应的三维动作数据包的步骤,具体包括:根据一一对应关系,按照中之人动作捕捉的方式分别采集多个预设时间段内的多组三维动作数据包,每组三维动作数据包均包括头部、双手、双脚以及躯干的主要关节点运动变化的数据。
[0011]在一种可选的方式中,将整篇新闻文稿自动生成用于播报的语音包的步骤,具体包括:建立虚拟主播人工智能AI语音合成音色,根据建立的AI语音合成音色通过AI语音合成能力将整篇新闻文稿自动生成用于播报的语音包。
[0012]在一种可选的方式中,在整篇新闻文稿中如果有未插入多组人偶动作形态中的一组人偶动作形态的一句或多句新闻文稿,则在进行动画合成时,还根据默认三维动作数据包按照第一时间戳与第三时间戳的对应关系进行动画合成,生成虚拟主播,默认三维动作数据包预先存储于人偶动作库,用于生成默认人偶动作形态。
[0013]在一种可选的方式中,在编辑界面接收到点击文本框的第三指令时,根据点击文本框时光标的所在位置将合成的语音的语音播放进度条跳转到对应位置。
[0014]在一种可选的方式中,在编辑界面接收到点击合成的语音的语音播放进度条的第四指令时,根据点击播放进度条的位置将用于点击文本框的光标跳转到整篇新闻文稿中的对应位置。
[0015]本申请的第二方面,提供了一种虚拟主播合成装置,该虚拟主播合成装置包括:预先建立模块,用于预先建立人偶动作库;存储模块,用于在人偶动作库中存储与多组人偶动作形态一一对应的多个三维动作数据包以及与多组人偶动作形态一一对应的多个命名,每
个三维动作数据包用于合成一组对应的人偶动作形态;生成模块,用于将整篇新闻文稿自动生成语音包,语音包用于合成播报的语音,语音包带有多个第一时间戳,多个第一时间戳与整篇新闻文稿中每句新闻文稿的多个第二时间戳一一对应;搭建模块,用于搭建用于在整篇新闻文稿中插入动作脚本的编辑界面,并且编辑界面所在窗口带有用于插入动作脚本的选择器;接收模块,用于在编辑界面接收选择器被选中的第一指令;调用显示模块,用于在编辑界面接收到选择器被选中的第一指令时,调用并显示根据人偶动作库中所有三维动作数据包生成的多组人偶动作形态的选择界面;接收模块,还用于在选择界面接收多组人偶动作形态中的任一组人偶动作形态被选中的第二指令;插入模块,用于在选择界面接收到多组人偶动作形态中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟主播合成方法,其特征在于,所述虚拟主播合成方法包括:预先建立人偶动作库,所述人偶动作库中存储与多组人偶动作形态一一对应的多个三维动作数据包以及与所述多组人偶动作形态一一对应的多个命名,每个所述三维动作数据包用于合成一组对应的所述人偶动作形态;将整篇新闻文稿自动生成语音包,所述语音包用于合成播报的语音,所述语音包带有多个第一时间戳,所述多个第一时间戳与所述整篇新闻文稿中每句新闻文稿的多个第二时间戳一一对应;搭建用于在所述整篇新闻文稿中插入动作脚本的编辑界面,并且所述编辑界面所在窗口带有用于插入所述动作脚本的选择器;在所述编辑界面接收到所述选择器被选中的第一指令时,调用并显示根据所述人偶动作库中所有三维动作数据包生成的多组人偶动作形态的选择界面,在所述选择界面接收到所述多组人偶动作形态中的任一组人偶动作形态被选中的第二指令时,根据所述第一指令的指示将被选中的一组所述人偶动作形态插入至所述整篇新闻文稿中的指定位置,并且在所述指定位置生成脚本,所述脚本用于指示被选中的一组所述人偶动作形态的命名和与所述指定位置对应的一句新闻文稿相匹配的第三时间戳,直到所述整篇新闻文稿中需要插入所述多组人偶动作形态中的一组人偶动作形态的每句新闻文稿均插入一组人偶动作形态;根据所述语音包和插入至所述整篇新闻文稿中的所有人偶动作形态对应的三维动作数据包按照所述第一时间戳与所述第三时间戳的对应关系进行动画合成,生成虚拟主播。2.根据权利要求1所述的虚拟主播合成方法,其特征在于,所述预先建立人偶动作库的步骤具体包括:建立具有基本骨架的虚拟人偶模型;基于所述虚拟人偶模型的基本骨架设定多组不同的人偶动作形态;分别建立多组人偶动作形态和多个预设时间段的一一对应关系,将所述一一对应关系进行存储形成人偶动作库;根据所述一一对应关系分别采集与多组人偶动作形态一一对应的三维动作数据包,并且每组所述人偶动作形态均对应一个命名;将所有的所述人偶动作形态、所述三维动作数据包以及所述命名按照一一对应的方式存储至所述人偶动作库。3.根据权利要求2所述的虚拟主播合成方法,其特征在于,根据所述一一对应关系分别采集与多组人偶动作形态一一对应的三维动作数据包的步骤,具体包括:根据所述一一对应关系,按照中之人动作捕捉的方式分别采集所述多个预设时间段内的多组三维动作数据包,每组所述三维动作数据包均包括头部、双手、双脚以及躯干的主要关节点运动变化的数据。4.根据权利要求1所述的虚拟主播合成方法,其特征在于,所述将整篇新闻文稿自动生成用于播报的语音包的步骤,具体包括:建立虚拟主播人工智能AI语音合成音色,根据建立的所述AI语音合成音色通过AI语音合成能力将整篇新闻文稿自动生成用于播报的语音包。5.根据权利要求1所述的虚拟主播合成方法,其特征在于,在所述整篇新闻文稿中如果有未插入所述多组人偶动作形态中的一组人偶动作形态的一句或多句新闻文稿,则在所述
进行动画合成时,还根据默认三维动作数...

【专利技术属性】
技术研发人员:吴佳俊
申请(专利权)人:上海东方传媒技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1