【技术实现步骤摘要】
用于确定嘴型的方法、装置、设备和存储介质
本公开内容的实现方式概括地涉及图像处理,并且更具体地,涉及用于确定基于语音确定嘴型的方法、装置、设备和计算机存储介质。
技术介绍
随着计算机技术的发展,目前已经出现了虚拟主播技术。在虚拟主播技术中,可以使用虚拟人物来播放新闻、天气预报、以及教学等方面的内容。真实人物在说话时,由于不同的发音对应于不同的嘴型,因而期望虚拟人物在播报时的嘴型能够逼真地模拟真实人物的嘴型。此时,如何以更为真实地方式确定虚拟人物的嘴型,成为一个技术难题。
技术实现思路
根据本公开内容的示例实现方式,提供了一种用于确定嘴型的方案。在本公开内容的第一方面中,提供了一种基于语音来确定虚拟人物的嘴型的方法。在该方法中,获取用于确定虚拟人物的嘴型的语音序列;按照预定步长将语音序列划分为多个语音片段;基于多个语音片段,分别生成描述多个语音片段的多个向量化表示;以及基于多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与多个语音片段的多个向量化表示相对应的嘴型序列,其中嘴型序列中的嘴型与多个语音片段中的语音片段的向量化表示相关联,以及嘴型生成模型是基于卷积神经网络获得的。在本公开内容的第二方面中,提供了一种基于语音来确定虚拟人物的嘴型的装置,包括:获取模块,配置用于获取用于确定虚拟人物的嘴型的语音序列;划分模块,配置用于按照预定步长将语音序列划分为多个语音片段;生成模块,配置用于基于多个语音片段,分别生成描述多个语音片段的多个向量化表示;以及确定模块,配置用于基于多个向量化表示,根据嘴型生成模型中包括的 ...
【技术保护点】
1.一种基于语音来确定虚拟人物的嘴型的方法,包括:获取用于确定所述虚拟人物的嘴型的语音序列;按照预定步长将所述语音序列划分为多个语音片段;基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及基于所述多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列,其中所述嘴型序列中的嘴型与所述多个语音片段中的语音片段的向量化表示相关联,以及所述嘴型生成模型是基于卷积神经网络获得的。
【技术特征摘要】
1.一种基于语音来确定虚拟人物的嘴型的方法,包括:获取用于确定所述虚拟人物的嘴型的语音序列;按照预定步长将所述语音序列划分为多个语音片段;基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及基于所述多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列,其中所述嘴型序列中的嘴型与所述多个语音片段中的语音片段的向量化表示相关联,以及所述嘴型生成模型是基于卷积神经网络获得的。2.根据权利要求1所述的方法,其中基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示包括:针对所述多个语音片段中的语音片段,分别提取描述所述语音片段中的多个预定采样点处的语音的多个特征向量;以及基于所述多个特征向量生成针对所述语音片段的向量化表示。3.根据权利要求1所述的方法,其中确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列包括:针对所述多个向量化表示中的向量化表示,根据所述关联关系,确定与所述向量化表示相关联的嘴型。4.根据权利要求1所述的方法,进一步包括:获取包括所述虚拟人物的图像;基于所述嘴型序列中的各个嘴型,分别更新所述图像中的与所述虚拟人物的嘴部相关联的区域以形成图像序列;以及基于所述图像序列和所述音频序列,生成包括所述虚拟人物的图像和语音的视频序列。5.根据权利要求4所述的方法,其中所述嘴型包括多个关键点,所述多个关键点描述所述真实人物的嘴型的轮廓。6.根据权利要求5所述的方法,其中基于所述嘴型序列中的各个嘴型,分别更新所述图像中的与所述虚拟人物的嘴部相关联的区域以形成图像序列包括:针对所述嘴型序列中的所述嘴型,利用所述嘴型包括的多个关键点,调整所述虚拟人物的所述图像中的嘴部图像。7.根据权利要求1所述的方法,进一步包括:获取所述嘴型生成模型,包括:获取所述真实人物的多个样本嘴型以及分别与所述多个样本嘴型相关联的所述真实人物的多个样本语音片段的多个样本向量化表示;以及基于所述多个样本嘴型与所述多个样本向量化表示,训练所述嘴型模型以使得所述嘴型模型描述所述多个样本嘴型与所述多个样本向量化表示之间的所述关联关系。8.根据权利要求7所述的方法,其中获取所述多个样本嘴型和所述多个样本向量化表示进一步包括:获取包括所述真实人物的图像和语音的视频序列;按照预定步长将所述视频序列划分为多个视频片段;针对所述多个视频片段中的视频片段,基于所述视频片段的视频部分,提取包括所述真实人物的样本嘴型的图像帧;基于所述视频片段的视频部分,生成描述所述真实人物语音的样本向量化表示。9.根据权利要求1所述的方法,其中:所述卷积神经网络是全卷积神经网络。10.一种基于语音来确定虚拟人物的嘴型的装置,包括:获取模块,配置用于获取用于确定所述虚拟人物的嘴型的语音序列;划分模块,配置用于按照预定步长将所述语音序列划分为多个语音片段;生成模块,配置用于基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及确定模块,配...
【专利技术属性】
技术研发人员:李鑫,刘霄,赵翔,李甫,何栋梁,龙翔,迟至真,文石磊,丁二锐,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。