一种基于文本的自动化视频生成方法技术

技术编号：26508232 阅读：36 留言：0更新日期：2020-11-27 15:36

本发明专利技术公开了一种基于文本的自动化视频生成方法，属于文本处理技术领域，目的在于提供一种基于文本的自动化视频生成方法，能够智能化生成符合文本内容的视频片段，基于文本有效生成对应用户的音视频。其包括以下步骤：(1)将文本转化成语音；(2)将生成的语音音素对齐；(3)将每个音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，并根据每个音素确定口型的静态视位；(4)根据人物、环境的相关参数，进行三维人脸建模，将口型的静态视位对应的图像插入视频的每一帧，合成连续的视频；(5)对建模的人脸进行人脸渲染。本发明专利技术适用于基于文本的自动化视频生成方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本的自动化视频生成方法
本专利技术属于文本处理
，具体涉及一种基于文本的自动化视频生成方法。
技术介绍
近年来，随着计算机视觉领域的飞速发展和生成对抗网络的提出，图像生成的研究受到了越来越广泛的关注，其在素材积累，数据集自动生成方面有非常积极的意义。视频相比于图像它更加生动，生成难度也更大，因此对于视频生成方面的探索更加有研究意义。随着计算能力的提高，大量互联网数据的收集，核心算法的突破，人工智能已经进入新的发展阶段，正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人形象跟用户互动，其中的关键技术是虚拟形象生成技术，结合语音合成和语音转换技术，可实现个性化语音和视频合成。语音合成是一种将文本转化成语音的技术，语音转换可以用作为合成的语音定制音色。随着深度学习的应用，合成语音和转换语音的自然度和流畅度都有很大的提升。目前主流的虚拟形象生成技术为根据面部识别来实时改变虚拟形象的表情，这种方式则更适用于二次元形象却难以生成一个类似真人的虚拟形象。近几年，基于真人建模的虚拟形象生成...

【技术保护点】
1.一种基于文本的自动化视频生成方法，其特征在于，包括以下步骤：/n(1)将输入的文本通过语音合成系统转化成语音；/n(2)将生成的语音音素对齐；/n(3)将每个音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，并根据每个音素确定口型的静态视位；/n(4)根据人物表情、人物位置、人脸方向、环境光照相关参数，进行三维人脸建模，将步骤3中口型的静态视位对应的图像插入视频的每一帧，合成连续的视频；/n(5)对建模的人脸进行人脸渲染，优化视频效果。/n

【技术特征摘要】
1.一种基于文本的自动化视频生成方法，其特征在于，包括以下步骤：
(1)将输入的文本通过语音合成系统转化成语音；
(2)将生成的语音音素对齐；
(3)将每个音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，并根据每个音素确定口型的静态视位；
(4)根据人物表情、人物位置、人脸方向、环境光照相关参数，进行三维人脸建模，将步骤3中口型的静态视位对应的图像插入视频...

【专利技术属性】
技术研发人员：武钧，彭寒兵，
申请(专利权)人：四川纵横六合科技股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人