视频数据的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:37960105 阅读:9 留言:0更新日期:2023-06-30 09:35
本发明专利技术涉及视频处理领域,公开了一种视频数据的生成方法、装置、设备及存储介质。该方法包括:获取素材;生成素材的文本描述信息;将文本描述信息映射至预设维度的超平面,得到文本描述向量;将文本描述向量与素材关联保存,得到预设素材库;在接收到语音信息时,根据语音信息以及预设素材库生成视频数据。本发明专利技术降低了视频数据的生成成本。了视频数据的生成成本。了视频数据的生成成本。

【技术实现步骤摘要】
视频数据的生成方法、装置、设备及存储介质


[0001]本专利技术涉及视频处理领域,尤其涉及一种视频数据的生成方法、装置、设备及存储介质。

技术介绍

[0002]在视频生成的领域中,视频生成方式主要是将视频素材与语音素材进行合成。对于视频素材的获取方式,现存手段往往需要人为截取或者选择视频帧,然后再人为选择或者编辑文本素材进行配对,最后将得到的视频帧与文本素材合成,从而得到视频素材。该方式在不付出一定时间成本的情况下,视频帧与文本素材的匹配程度低,若付出一定时间成本,会使得视频数据的生成成本升高。

技术实现思路

[0003]本专利技术的主要目的在于解决视频数据的生成成本高的技术问题。
[0004]本专利技术第一方面提供了一种视频数据的生成方法,所述视频数据的生成方法包括:获取素材;生成所述素材的文本描述信息;将所述文本描述信息映射至预设维度的超平面,得到文本描述向量;将所述文本描述向量与所述素材关联保存,得到所述预设素材库;在接收到语音信息时,根据所述语音信息以及所述预设素材库生成视频数据。
[0005]可选的,在本专利技术第一方面的第一种实现方式中,所述在接收到语音信息时,根据所述语音信息以及所述预设素材库生成视频数据的步骤包括:在接收到所述语音信息时,获取所述语音信息对应的关键字;将所述关键字映射至所述超平面,得到关键字向量;根据所述关键字向量以及所述文本描述向量在所述预设素材库中确定目标素材;根据所述语音信息以及所述目标素材生成所述视频数据。
[0006]可选的,在本专利技术第一方面的第二种实现方式中,所述在接收到所述语音信息时,获取所述语音信息对应的关键字的步骤包括:在接收到所述语音信息时,对所述语音信息进行语音识别,得到语音文本信息;根据TF

IDF算法对所述语音文本信息进行关键字提取,得到所述关键字。
[0007]可选的,在本专利技术第一方面的第三种实现方式中,所述根据所述语音信息以及所述目标素材生成所述视频数据的步骤包括:根据CTC模型识别所述关键字在所述语音信息中的起始时间点与结束时间点;根据所述起始时间点与所述结束时间点剪辑所述目标素材,得到待配音素材;将所述语音信息与所述待配音素材合成,得到所述视频数据。
[0008]可选的,在本专利技术第一方面的第四种实现方式中,所述生成所述素材的文本描述
信息的步骤包括:将所述素材输入预设的多模态预训练模型,得到所述多模态预训练模型输出的所述文本描述信息。
[0009]可选的,在本专利技术第一方面的第五种实现方式中,根据权利要求1所述的视频数据的生成方法,其特征在于,所述获取素材的步骤包括:通过分布式搜索引擎搜索图片数据以及视频数据并保存,得到样本素材库;在所述样本素材库中获取所述素材。
[0010]8、可选的,在本专利技术第一方面的第六种实现方式中,所述将所述文本描述信息映射至预设维度的超平面,得到文本描述向量的步骤包括:通过文本向量表征工具将所述文本描述信息映射至预设维度的超平面,得到所述文本描述向量。
[0011]本专利技术第二方面提供了一种视频数据的生成装置,包括:获取模块,用于获取素材;理解模块,用于生成所述素材的文本描述信息;映射模块,用于将所述文本描述信息映射至预设维度的超平面,得到文本描述向量;关联模块,用于将所述文本描述向量与所述素材关联保存,得到所述预设素材库;生成模块,用于在接收到语音信息时,根据所述语音信息以及所述预设素材库生成视频数据。
[0012]本专利技术第三方面提供了一种视频数据的生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述视频数据的生成设备执行上述的视频数据的生成方法。
[0013]本专利技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的视频数据的生成方法。
[0014]在本专利技术实施例中,视频数据的生成设备获取素材;生成所述素材的文本描述信息;将所述文本描述信息映射至预设维度的超平面,得到文本描述向量;将所述文本描述向量与所述素材关联保存,得到所述预设素材库;在接收到语音信息时,根据所述语音信息以及所述预设素材库生成视频数据。由于视频数据的生成设备可自动获取素材,且获取到素材时可基于该素材生成预设素材库,相对于人为截取或者选择视频帧可降低人工成本且提高了预设素材的生成效率,进一步的,当接收到用于发起视频数据的生成指令的语音信息时,会基于该语音信息自动在预设数据库中确定适合的素材用于生成视频数据,相对于要付出大量时间将视频帧与文本素材配对的生成方式,可降低时间成本,综上所述,整体降低了视频数据的生成成本。
附图说明
[0015]图1为本专利技术实施例中视频数据的生成方法的一个实施例示意图;图2为本专利技术实施例中视频数据的生成方法的另一个实施例示意图;
图3为本专利技术实施例中视频数据的生成装置的一个实施例示意图;图4为本专利技术实施例中视频数据的生成设备的一个实施例示意图。
具体实施方式
[0016]本专利技术实施例提供了一种视频数据的生成方法、装置、设备及存储介质。
[0017]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0018]为便于理解,下面对本专利技术实施例的具体流程进行描述,请参阅图1,本专利技术实施例中视频数据的生成方法的一个实施例包括:101、获取素材;具体的,输出为图片或者视频,本实施例优选视频。
[0019]可选的,通过分布式搜索引擎搜索图片数据以及视频数据并保存,得到样本素材库;在所述样本素材库中获取所述素材。例如:利用ElasticSearch搭建视频素材库。Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户102、生成所述素材的文本描述信息;具体的,视频数据的生成设备进行图片以及视频素材的理解,将理解结果保存为文本,得到上述文本描述信息。
[0020]可选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频数据的生成方法,其特征在于,所述视频数据的生成方法包括:获取素材;生成所述素材的文本描述信息;将所述文本描述信息映射至预设维度的超平面,得到文本描述向量;将所述文本描述向量与所述素材关联保存,得到所述预设素材库;在接收到语音信息时,根据所述语音信息以及所述预设素材库生成视频数据。2.根据权利要求1所述的视频数据的生成方法,其特征在于,所述在接收到语音信息时,根据所述语音信息以及所述预设素材库生成视频数据的步骤包括:在接收到所述语音信息时,获取所述语音信息对应的关键字;将所述关键字映射至所述超平面,得到关键字向量;根据所述关键字向量以及所述文本描述向量在所述预设素材库中确定目标素材;根据所述语音信息以及所述目标素材生成所述视频数据。3.根据权利要求2所述的视频数据的生成方法,其特征在于,所述在接收到所述语音信息时,获取所述语音信息对应的关键字的步骤包括:在接收到所述语音信息时,对所述语音信息进行语音识别,得到语音文本信息;根据TF

IDF算法对所述语音文本信息进行关键字提取,得到所述关键字。4.根据权利要求2所述的视频数据的生成方法,其特征在于,所述根据所述语音信息以及所述目标素材生成所述视频数据的步骤包括:根据CTC模型识别所述关键字在所述语音信息中的起始时间点与结束时间点;根据所述起始时间点与所述结束时间点剪辑所述目标素材,得到待配音素材;将所述语音信息与所述待配音素材合成,得到所述视频数据。5.根据权利要求1所述的视频数据的生成方法,其特征在于,所述生成所述素材的文本描述信息的步骤包括:将所述素材输...

【专利技术属性】
技术研发人员:蔡卓君阮霁阳
申请(专利权)人:上海积图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1