一种利用音频生成视频的方法及装置制造方法及图纸

技术编号：38139162 阅读：9 留言：0更新日期：2023-07-08 09:52

本发明专利技术提供一种利用音频生成视频的方法及装置，属于计算机技术领域，所述方法包括：从目标音频中提取出目标音频特征；对目标图像进行人脸解析获取人脸解析图像，并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样；将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机，获取光线点的颜色和密度；基于光线点的颜色和密度，利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。本发明专利技术提供的利用音频生成视频的方法及装置，将目标音频特征和人脸解析图像投射光线点的空间坐标和方向输入到多层感知机中，获取光线点的颜色和密度，然后再利用体绘制技术生成表情和唇部动作与目标音频一致的视频。情和唇部动作与目标音频一致的视频。情和唇部动作与目标音频一致的视频。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用音频生成视频的方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种利用音频生成视频的方法及装置。

技术介绍

[0002]课堂是教师授课和学生获取知识的重要场所。随着社会的不断发展及信息技术的发展，网络课堂教学质量变得越发重要。用信息化技术对网络教学视频进行处理，不仅可以帮助教师丰富教学手段，还可以帮助学生提高上课的注意力，从而帮助学生提升学习效率。如果用不同的说话风格和人物去生成相同的教学内容视频中，可以实现对不同种类学生的因材施教，将会对学生的学习绩效提升更有意义。
[0003]传统的方法依赖于像2D地标或3D人脸模型这样的中间表示来桥接音频输入和视频输出之间的间隙，由于中间表示导致的信息丢失，可能导致原始音频信号与人脸变形之间的语义不匹配。
[0004]另外，专利申请号为202211508415.0的专利技术专利申请公开了一种语音生成视频的方法和装置，其主要技术方案为：确定语音输入操作对应的语音数据；根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象；获取基于语音提取姿势数据的第一模型，并通过第一模型确定语音数据的初始姿势数据；获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据；确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频。虽然能够应用，但是需要提前配置预设形象以及多个模型转换，增加了操作复杂度。

技术实现思路

[0005]本专利技术提供一种利用音频...

【技术保护点】

【技术特征摘要】
1.一种利用音频生成视频的方法，其特征在于，包括：从目标音频中提取出目标音频特征；对目标图像进行人脸解析获取人脸解析图像，并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样；将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机，获取光线点的颜色和密度；基于光线点的颜色和密度，利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。2.根据权利要求1所述的利用音频生成视频的方法，其特征在于，所述从目标音频中提取出目标音频特征，包括：将所述目标音频输入至预设语音识别网络模型，以提取所述目标音频的目标音频特征。3.根据权利要求2所述的利用音频生成视频的方法，其特征在于，所述预设语音识别网络模型为deepspeech2网络；所述deepspeech2网络包括依次连接的3个卷积层，7个循环层和1个全连接层。4.根据权利要求1所述的利用音频生成视频的方法，其特征在于，对目标图像进行人脸解析获取人脸解析图像，包括：采用Bisenet网络对目标图像进行人脸解析，获取人脸解析图像；所述Bisenet网络的网络结构包括Spatial Path和Context Path；所述Spatial Path包括三层，每层包括一个步幅为2的卷积，随后是批归一化和ReLU激活函数；所述Context Path能够快速下采样特征图以获得大感受野，编码高层语义语境信息。5.根据权利要求1所述的利用音频生成视频的方法，其特征在于，对所述人脸解析图像进行逐像素投射光线，其中任一像素投射的射线具体表现为：r＝o+td；其中...

【专利技术属性】
技术研发人员：廖盛斌，李一鸣，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人