一种虚拟形象合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26259400 阅读：15 留言：0更新日期：2020-11-06 17:53

本申请公开了一种虚拟形象合成方法、装置、电子设备及存储介质。方法包括：获取与文本信息对应的音频；获取与音频对应的面部特征点序列；根据面部特征点序列获取视频；将音频和视频结合获得虚拟形象，并将虚拟形象通过不同的端口输出。通过获取与文本信息对应的音频，并通过音频获取视频，将音频和视频结合获取虚拟形象，从而在老师进行网上授课的过程中，可以根据所创建的虚拟形象通过不同的端口分别与学生进行互动，从而避免了重复操作，提高了老师的网上授课效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种虚拟形象合成方法、装置、电子设备及存储介质
本公开实施例涉及数据处理
，尤其涉及一种虚拟形象合成方法、装置、电子设备及存储介质。
技术介绍
随着网络技术的发展，网络授课得到越来越多的推广，网络授课相对于传统的授课方式，不需要老师以及学生花费较长的交通时间去到固定的场所，从而节省了老师以及学生的时间，并且由于不需要占用固定的场所，从而节省了社会资源。但是在网络授课的过程中，一个授课老师可能需要面对多个学生，在与学生进行互动的时候，针对同一句话在与多人分别进行互动的过程中可能需要进行多次重复的操作，从而降低了老师的网上授课效率。
技术实现思路
本公开实施例提供一种虚拟形象合成方法、装置、电子设备及存储介质，以实现采用所创建的虚拟形象进行网上授课的互动。第一方面，本公开实施例提供了一种虚拟形象合成方法，该方法包括：获取与文本信息对应的音频；获取与音频对应的面部特征点序列；根据面部特征点序列获取视频；将音频和视频结合获得虚拟形象，并将虚拟形象通过不同的端口输出。第二方面，本公开实施例还提供了一种虚拟形象合成装置，该装置包括：音频获取模块，用于获取与文本信息对应的音频；面部特征点序列获取模块，用于获取与音频对应的面部特征点序列；视频获取模块，用于根据面部特征点序列获取视频；虚拟形象输出模块，用于将音频和视频结合获得虚拟形象，并将虚拟形象通过不同的端口输出。第三方面，本公开实施例还提供了一种电子设备，该电子设备包...

【技术保护点】
1.一种虚拟形象合成方法，其特征在于，包括：/n获取与文本信息对应的音频；/n获取与所述音频对应的面部特征点序列；/n根据所述面部特征点序列获取视频；/n将所述音频和所述视频结合获得虚拟形象，并将所述虚拟形象通过不同的端口输出。/n

【技术特征摘要】
1.一种虚拟形象合成方法，其特征在于，包括：
获取与文本信息对应的音频；
获取与所述音频对应的面部特征点序列；
根据所述面部特征点序列获取视频；
将所述音频和所述视频结合获得虚拟形象，并将所述虚拟形象通过不同的端口输出。

2.根据权利要求1所述的方法，其特征在于，所述获取与文本信息对应的音频，包括：
响应于检测到用户的输入指令，获取所述文本信息；
确定所述文本信息对应的时长；
将所述文本信息和所述时长输入预先训练的语音合成模型获取所述音频，其中，所述语音合成系统用于按照所述时长将所述文本信息转换为所述音频。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述音频对应的面部特征点序列，包括：
根据所述音频获取音频帧序列；
将所述音频帧序列输入预先训练的特征点预测模型，获取面部特征点序列，其中，所述面部特征点序列中包含多组面部特征点，所述特征点预测模型用于确定每一个音频帧所对应的一组面部特征点。

4.根据权利要求3所述的方法，其特征在于，所述将所述音频帧序列输入预先训练的特征点预测模型，获取面部特征点序列之前，还包括：
获取媒体文件，其中，所述媒体文件中包含样本音频以及同步播放的面部视频；
从所述音频中提取样本音频帧，以及从所述视频中提取与所述样本音频帧同步的样本视频帧；
提取所述样本视频帧中所包含的样本面部特征点；
根据所述样本音频帧和所述样本面部特征点对所述特征点预测模型进行训练。

5.根据权利要求1所述的方法，其特征在于，所述根据所述面部特征点序列获取视频，包括：
获取面部标准模板；
将每一组面部特征点添加到所述面部标准模板，获取每一...

【专利技术属性】
技术研发人员：顾宇，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人