【技术实现步骤摘要】
一种基于文本的自动化视频生成方法
本专利技术属于文本处理
,具体涉及一种基于文本的自动化视频生成方法。
技术介绍
近年来,随着计算机视觉领域的飞速发展和生成对抗网络的提出,图像生成的研究受到了越来越广泛的关注,其在素材积累,数据集自动生成方面有非常积极的意义。视频相比于图像它更加生动,生成难度也更大,因此对于视频生成方面的探索更加有研究意义。随着计算能力的提高,大量互联网数据的收集,核心算法的突破,人工智能已经进入新的发展阶段,正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人形象跟用户互动,其中的关键技术是虚拟形象生成技术,结合语音合成和语音转换技术,可实现个性化语音和视频合成。语音合成是一种将文本转化成语音的技术,语音转换可以用作为合成的语音定制音色。随着深度学习的应用,合成语音和转换语音的自然度和流畅度都有很大的提升。目前主流的虚拟形象生成技术为根据面部识别来实时改变虚拟形象的表情,这种方式则更适用于二次元形象却难以生成一个类似真人的虚拟形象。近几年,基于真人建模的虚拟形象生成 ...
【技术保护点】
1.一种基于文本的自动化视频生成方法,其特征在于,包括以下步骤:/n(1)将输入的文本通过语音合成系统转化成语音;/n(2)将生成的语音音素对齐;/n(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;/n(4)根据人物表情、人物位置、人脸方向、环境光照相关参数,进行三维人脸建模,将步骤3中口型的静态视位对应的图像插入视频的每一帧,合成连续的视频;/n(5)对建模的人脸进行人脸渲染,优化视频效果。/n
【技术特征摘要】
1.一种基于文本的自动化视频生成方法,其特征在于,包括以下步骤:
(1)将输入的文本通过语音合成系统转化成语音;
(2)将生成的语音音素对齐;
(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;
(4)根据人物表情、人物位置、人脸方向、环境光照相关参数,进行三维人脸建模,将步骤3中口型的静态视位对应的图像插入视频...
【专利技术属性】
技术研发人员:武钧,彭寒兵,
申请(专利权)人:四川纵横六合科技股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。