视频生成方法、装置、介质和计算设备制造方法及图纸

技术编号：38331876 阅读：29 留言：0更新日期：2023-07-29 09:14

本公开的实施方式提供了一种视频生成方法、装置、介质和计算设备，该方法包括：基于待处理音频的音频文本获得多个词句；生成每个所述词句对应的噪声图；根据所述词句对所述词句对应的噪声图进行降噪，得到所述词句对应的第一图像；根据各张所述第一图像，生成所述待处理音频对应的视频。本公开中，通过生成音频中的词句对应的噪声图，再通过对噪声图进行降噪得到词句所匹配的图像，使得视频中的图像能够代表音频中词句所传达的内容，提高了视频与音频所传达内容的匹配度。频所传达内容的匹配度。频所传达内容的匹配度。

全部详细技术资料下载

【技术实现步骤摘要】
视频生成方法、装置、介质和计算设备

[0001]本公开的实施方式涉及视频
，更具体地，本公开的实施方式涉及视频生成方法、装置、介质和计算设备。

技术介绍

[0002]本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在日常生活中，音视频已经成为人们获取信息以及娱乐休闲的重要载体。MV(music video，音频短片)等包含图像的视频，成为受欢迎的一种音频呈现方式。
[0004]示例性技术中，在创作视频时，需要查找与音频的所匹配的图像，再通过图像与音频生成视频。但这种视频生成方式，难以找到与音频所匹配的图像，导致视频中的图像与音频所传达内容不匹配，也即视频与音频所传达内容的匹配度较低。

技术实现思路

[0005]本公开提供一种视频生成方法、装置、介质和计算设备，用以解决视频与音频所传达内容的匹配度较低的问题。
[0006]在本公开实施方式的第一方面中，提供了一种视频生成方法，包括：基于待处理音频的音频文本获得多个词句；生成每个所述词句对应的噪声图；根据所述词句对所述噪声图进行降噪得到所述词句对应的第一图像；根据各张所述第一图像，生成所述待处理音频对应的视频。
[0007]在本公开一实施例中，所述根据所述词句对所述词句对应的噪声图进行降噪，得到所述词句对应的第一图像，包括：生成所述词句对应的目标特征向量；将所述目标特征向量以及所述词句对应的噪声图输入扩散模型，得到所述扩散模型输出的所述词句对应的第一图像。r/>[0008]在本公开另一实施例中，所述生成所述词句对应的目标特征向量，包括：获取所述词句中每个单词对应的第一字符；根据所述第一字符确定所述第一字符对应的单词在预设特征向量上的位置；将所述单词对应的位置的第一数值，更新为第二数值，得到目标特征向量。
[0009]在本公开另一实施例中，所述将所述单词对应的位置的第一数值，更新为第二数值，得到目标特征向量，包括：将所述单词对应的位置的第一数值，更新为第二数值，得到第一特征向量；基于预设的嵌入矩阵对所述第一特征向量进行降维操作得到目标特征向量。
[0010]在本公开另一实施例中，所述基于预设的嵌入矩阵对所述第一特征向量进行降维操作得到目标特征向量，包括：基于预设的嵌入矩阵对所述第一特征向量进行降维操作，得到第二特征向量；对所述第二特征向量进行分类得到所述第二特征向量对应的分类标签；根据所述分类标签以及所述第二特征向量确定所述目标特征向量。
[0011]在本公开另一实施例中，所述对所述第二特征向量进行分类得到所述第二特征向
量对应的分类标签，包括：将所述第二特征向量输入至分类模型，得到所述分类模型输出的所述第二特征向量对应的分类标签。
[0012]在本公开另一实施例中，所述基于预设的嵌入矩阵对所述第一特征向量进行降维操作得到目标特征向量，包括：将所述第一特征向量输入至预设模型，得到所述预设模型输出的目标特征向量，所述预设模型包括用于进行降维操作的嵌入矩阵。
[0013]在本公开另一实施例中，所述根据各张所述第一图像，生成所述待处理音频对应的视频，包括：根据所述待处理音频中每相邻的两个词句的所述目标特征向量，确定每相邻的两个词句之间的过渡文本特征向量；生成所述过渡文本特征向量对应的噪声图，并对所述过渡文本特征向量对应的噪声图进行降噪，得到所述过渡文本特征向量对应的第二图像；根据各张所述第一图像以及各张所述第二图像，生成所述待处理音频对应的视频。
[0014]在本公开另一实施例中，所述根据所述待处理音频中每相邻的两个词句的所述目标特征向量，确定每相邻的两个词句之间的过渡文本特征向量，包括：获取第一词句在所述待处理音频的第一播放时间点、第二词句在所述待处理音频的第二播放时间点以及待生成视频的帧率，所述第一词句以及所述第二词句是所述待处理音频中相邻词句；根据所述第一词句的目标特征向量、所述第二词句的目标特征向量、所述第一播放时间点、所述第二播放时间点以及所述帧率，确定所述第一词句与所述第二词句之间的过渡文本特征向量。
[0015]在本公开另一实施例中，还包括：获取多个训练样本，所述训练样本包括文字特征向量以及所述文字特征向量对应的文字所匹配的第二图像；根据各个所述训练样本对待训练模型进行训练，得到所述扩散模型。
[0016]在本公开另一实施例中，所述扩散模型生成每张所述第一图像所采用的随机种子相同，所述随机种子用于所述扩散模型生成所述词句对应的第一图像。
[0017]在本公开另一实施例中，所述根据各张所述第一图像，生成所述待处理音频对应的视频，包括：对每张所述第一图像进行仿射变换得到多张第三图像；根据各张所述第三图像，生成所述待处理音频对应的视频。
[0018]在本公开另一实施例中，所述基于待处理音频的音频文本获得多个词句，包括：获取所述待处理音频对应的节奏信息；根据所述节奏信息对所述待处理音频的音频文本进行划分，得到多个词句。
[0019]在本公开实施方式的第二方面，还提供一种视频生成装置，包括：处理模块，用于基于待处理音频的音频文本获得多个词句；第一生成模块，用于生成每个所述词句对应的噪声图；降噪模块，用于根据所述词句对所述噪声图进行降噪，得到每个所述词句对应的第一图像；第二生成模块，用于根据各张所述第一图像以及对应的词句所在的音频片段，生成所述待处理音频对应的视频。
[0020]在本公开一实施例中，所述降噪模块，包括：第一生成单元，用于生成所述词句对应的目标特征向量；输入单元，用于将所述目标特征向量以及所述词句对应的噪声图输入扩散模型，得到所述扩散模型输出的所述词句对应的第一图像。
[0021]在本公开另一实施例中，所述第一生成单元，包括：第一获取子单元，用于获取所述词句中每个单词对应的第一字符；第一确定子单元，用于根据所述第一字符确定所述第一字符对应的单词在预设特征向量上的位置；替换子单元，用于将所述单词对应的位置的第一数值，更新为第二数值，得到目标特征向量。
[0022]在本公开另一实施例中，所述替换子单元，包括：替换组件，用于将所述单词对应的位置的第一数值，更新为第二数值，得到第一特征向量；处理组件，用于基于预设的嵌入矩阵对所述第一特征向量进行降维操作得到目标特征向量。
[0023]在本公开另一实施例中，所述处理组件，包括：处理模组，用于基于预设的嵌入矩阵对所述第一特征向量进行降维操作，得到第二特征向量；分类模组，用于对所述第二特征向量进行分类得到所述第二特征向量对应的分类标签；确定模组，用于根据所述分类标签以及所述第二特征向量确定所述目标特征向量。
[0024]在本公开另一实施例中，所述分类模组，包括：输入部件，用于将所述第二特征向量输入至分类模型，得到所述分类模型输出的所述第二特征向量对应的分类标签。
[0025]在本公开另一实施例中，所述处理组件，包括：输入模组，用于将所述第一特征向量输入至预设模型，得到所述预设模型输出的目标特征向量，所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法，其特征在于，包括：基于待处理音频的音频文本获得多个词句；生成每个所述词句对应的噪声图；根据所述词句对所述词句对应的噪声图进行降噪，得到所述词句对应的第一图像；根据各张所述第一图像，生成所述待处理音频对应的视频。2.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述词句对所述词句对应的噪声图进行降噪，得到所述词句对应的第一图像，包括：生成所述词句对应的目标特征向量；将所述目标特征向量以及所述词句对应的噪声图输入扩散模型，得到所述扩散模型输出的所述词句对应的第一图像。3.根据权利要求2所述的视频生成方法，其特征在于，所述生成所述词句对应的目标特征向量，包括：获取所述词句中每个单词对应的第一字符；根据所述第一字符确定所述第一字符对应的单词在预设特征向量上的位置；将所述单词对应的位置的第一数值，更新为第二数值，得到目标特征向量。4.根据权利要求3所述的视频生成方法，其特征在于，所述将所述单词对应的位置的第一数值，更新为第二数值，得到目标特征向量，包括：将所述单词对应的位置的第一数值，更新为第二数值，得到第一特征向量；基于预设的嵌入矩阵对所述第一特征向量进行降维操作得到目标特征向量。5.根据权利要求4所述的视频生成方法，其特征在于，所述基于预设的嵌入矩阵对所述第一特征向量进行降维操作得到目标特征向量，包括：基于预设的嵌入矩阵对所述第一特征向量进行降维操作，得到第二特征向量；对所述第二特征向量进行分类得到所述第二特征向量对应的分类标签；根据所述分类标签以及所述第二特征向量确定所述目标...

【专利技术属性】
技术研发人员：赵剑，马瑞茄，蒋超，李宜烜，黄安麒，虞勇波，赵翔宇，刘华平，
申请(专利权)人：杭州网易云音乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人