一种利用音频生成视频的方法及装置制造方法及图纸

技术编号:38139162 阅读:9 留言:0更新日期:2023-07-08 09:52
本发明专利技术提供一种利用音频生成视频的方法及装置,属于计算机技术领域,所述方法包括:从目标音频中提取出目标音频特征;对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。本发明专利技术提供的利用音频生成视频的方法及装置,将目标音频特征和人脸解析图像投射光线点的空间坐标和方向输入到多层感知机中,获取光线点的颜色和密度,然后再利用体绘制技术生成表情和唇部动作与目标音频一致的视频。情和唇部动作与目标音频一致的视频。情和唇部动作与目标音频一致的视频。

【技术实现步骤摘要】
一种利用音频生成视频的方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种利用音频生成视频的方法及装置。

技术介绍

[0002]课堂是教师授课和学生获取知识的重要场所。随着社会的不断发展及信息技术的发展,网络课堂教学质量变得越发重要。用信息化技术对网络教学视频进行处理,不仅可以帮助教师丰富教学手段,还可以帮助学生提高上课的注意力,从而帮助学生提升学习效率。如果用不同的说话风格和人物去生成相同的教学内容视频中,可以实现对不同种类学生的因材施教,将会对学生的学习绩效提升更有意义。
[0003]传统的方法依赖于像2D地标或3D人脸模型这样的中间表示来桥接音频输入和视频输出之间的间隙,由于中间表示导致的信息丢失,可能导致原始音频信号与人脸变形之间的语义不匹配。
[0004]另外,专利申请号为202211508415.0的专利技术专利申请公开了一种语音生成视频的方法和装置,其主要技术方案为:确定语音输入操作对应的语音数据;根据语音数据,从针对目标对象配置的多个预设形象中确定目标形象;获取基于语音提取姿势数据的第一模型,并通过第一模型确定语音数据的初始姿势数据;获取目标形象对应的标准姿势数据,并根据标准姿势数据对初始姿势数据进行重定向,得到目标姿势数据;确定目标形象对应的用于基于姿势合成视频的第二模型,并将目标姿势数据输入第二模型中,生成目标形象的目标视频。虽然能够应用,但是需要提前配置预设形象以及多个模型转换,增加了操作复杂度。

技术实现思路

[0005]本专利技术提供一种利用音频生成视频的方法及装置,用以解决现有技术中原始音频信号与人脸变形之间的语义不匹配的缺陷,生成了表情和唇部动作与语音一致的视频。
[0006]第一方面,本专利技术提供一种利用音频生成视频的方法,包括:从目标音频中提取出目标音频特征;对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。
[0007]根据本专利技术提供的一种利用音频生成视频的方法,所述从目标音频中提取出目标音频特征,包括:将所述目标音频输入至预设语音识别网络模型,以提取所述目标音频的目标音频特征。
[0008]根据本专利技术提供的一种利用音频生成视频的方法,所述预设语音识别网络模型为deepspeech2网络;所述deepspeech2网络包括依次连接的3个卷积层,7个循环层和1个全连接层。
[0009]根据本专利技术提供的一种利用音频生成视频的方法,对目标图像进行人脸解析获取
人脸解析图像,包括:采用Bisenet网络对目标图像进行人脸解析,获取人脸解析图像;所述Bisenet网络的网络结构包括Spatial Path和Context Path;所述Spatial Path包括三层,每层包括一个步幅为2的卷积,随后是批归一化和ReLU激活函数;所述Context Path能够快速下采样特征图以获得大感受野,编码高层语义语境信息。
[0010]根据本专利技术提供的一种利用音频生成视频的方法,对所述人脸解析图像进行逐像素投射光线,其中任一像素投射的射线具体表现为:
[0011]r=o+td;
[0012]其中,r表示射线,o表示将相机坐标设为原点,t表示射线上的点到相机原点的距离,d表示射线的方向。
[0013]根据本专利技术提供的一种利用音频生成视频的方法,基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频,对应的实现公式为:
[0014][0015]其中,T(t)代表累积透光率,tn和tf分别代表光线上的近端和远端,σ(r(t))代表密度,c(r(t),d)代表每一个采样点的颜色,C(r)表示预测的每一个像素颜色。
[0016]根据本专利技术提供的一种利用音频生成视频的方法,所述目标音频为教师教学音频。
[0017]第二方面,本专利技术还提供一种利用音频生成视频的装置,包括:
[0018]目标音频特征提取模块,用于从目标音频中提取出目标音频特征;
[0019]光线点采样模块,用于对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;
[0020]动态神经辐射场模块,用于将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;
[0021]视频生成模块,基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。
[0022]第三方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述利用音频生成视频的方法的步骤。
[0023]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述利用音频生成视频的方法的步骤。
[0024]本专利技术提供的利用音频生成视频的方法及装置,将目标音频特征和人脸解析图像投射光线点的空间坐标和方向输入到多层感知机中,获取光线点的颜色和密度,然后再利用体绘制技术生成表情和唇部动作与目标音频一致的视频。
[0025]进一步地,本专利技术中直接将音频特征和人像特征输入到神经网络,无需提前配置多个预设形象,而且不需要准备多个模型,不仅节省计算资源,而且还能减少了语义在多个模型之间转换而引发的语义缺失问题。同时还结合教育场景,在deepspeech2的预训练中使用中文教学场景下的音频进行训练,从而达到对音频语义特征提取更为准确的效果。
附图说明
[0026]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本专利技术提供的利用音频生成视频的方法的流程示意图之一;
[0028]图2是本专利技术提供的deepspeech2网络结构的示意图;
[0029]图3是本专利技术提供的利用Bisenet网络进行人脸解析的示意图;
[0030]图4是本专利技术提供的利用音频生成视频的方法的流程示意图之二;
[0031]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0032]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]需要说明的是,在本专利技术实施例的描述中,术语“包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用音频生成视频的方法,其特征在于,包括:从目标音频中提取出目标音频特征;对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。2.根据权利要求1所述的利用音频生成视频的方法,其特征在于,所述从目标音频中提取出目标音频特征,包括:将所述目标音频输入至预设语音识别网络模型,以提取所述目标音频的目标音频特征。3.根据权利要求2所述的利用音频生成视频的方法,其特征在于,所述预设语音识别网络模型为deepspeech2网络;所述deepspeech2网络包括依次连接的3个卷积层,7个循环层和1个全连接层。4.根据权利要求1所述的利用音频生成视频的方法,其特征在于,对目标图像进行人脸解析获取人脸解析图像,包括:采用Bisenet网络对目标图像进行人脸解析,获取人脸解析图像;所述Bisenet网络的网络结构包括Spatial Path和Context Path;所述Spatial Path包括三层,每层包括一个步幅为2的卷积,随后是批归一化和ReLU激活函数;所述Context Path能够快速下采样特征图以获得大感受野,编码高层语义语境信息。5.根据权利要求1所述的利用音频生成视频的方法,其特征在于,对所述人脸解析图像进行逐像素投射光线,其中任一像素投射的射线具体表现为:r=o+td;其中...

【专利技术属性】
技术研发人员:廖盛斌李一鸣
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1