当前位置: 首页 > 专利查询>兰州大学专利>正文

一种用于将视频转化为描述性音频的方法及系统技术方案

技术编号:38629541 阅读:16 留言:0更新日期:2023-08-31 18:29
本发明专利技术公开了一种用于将视频转化为描述性音频的方法及系统,利用采集到的视频数据集,训练特征提取网络以提取视频的时空特征,并生成包含时序信息的多尺度特征序列的表示。利用深度学习模型拟合视频特征和文本特征,学习视频的语义信息,以此生成对输入视频整体内容的文本描述;学习视频中帧聚类,按照事件对视频进行划分,学习视频的时序信息,并生成分段描述。最后,使用文本转语音工具生成对视频文本描述对应的音频片段,并将它们拼接在一起,以生成连续、清晰的描述。本发明专利技术利用神经网络有效地理解视频的语义信息,并使用语音描述信息扩展视频的理解方式,实现了对视频的音频描述,有效地帮助用户以听觉方式理解视频内容。容。容。

【技术实现步骤摘要】
一种用于将视频转化为描述性音频的方法及系统


[0001]本专利技术属于模型构建及视频处理领域,具体涉及一种用于将视频转化为描述性音频的方法及系统。

技术介绍

[0002]目前,在信息时代,我们的生活都离不开视频。但是观看视频需要大量的眼部注意力,使我们很难同时进行其他任务。此外,长时间观看视频会导致眼睛干涩、酸胀,长此以往会引发各种眼部疾病。但现阶段,暂无适用于视频的自动化描述方法,如果通过人工标注描述的方式,具有极高的复杂性,无法满足大规模的视频描述任务。而随着深度学习的飞速发展以及高计算量设备的大量普及,利用计算机视觉和自然语言处理技术进行视频描述生成具有重要的意义。
[0003]现阶段基于深度学习的视频理解技术不断成熟。视频理解旨在通过计算机,自动检测视频中出现的场景、人物、物体等静态元素,以及时间域上的动作和事件,反映各视觉对象的时空变化,并最终选择合适的词汇和句式,利用过去和未来的上下文内容信息,识别视频中整体事件的关系,并将所有事件描述出来,生成的描述内容具有完整和连续的特点。

技术实现思路

[0004]针对现有技术的不足,本专利技术提出了一种用于将视频转化为描述性音频的方法及系统,该方法首先根据采集到的视频数据集,训练特征提取网络以提取视频的时空特征,生成包含时序信息的多尺度特征序列。接着,使用深度学习模型学习视频特征序列和文本特征序列之间的对应关系,从而获取视频的语义信息,并生成对输入视频整体内容的描述文本。同时,使用深度学习模型还能学习视频帧之间的聚类关系,将视频按照事件进行划分,并生成分段的文本描述。进一步地,本专利技术使用文本转语音工具生成相应的音频内容,并将其与原生视频的音频拼接,从而实现对视频(例如电影、短视频、体育视频等)的音频描述,帮助用户以听觉方式理解视频内容,实现以听的方式“观看”视频,真正达到听视频的效果。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种用于将视频转化为描述性音频的方法,包括以下步骤:
[0007]S110:将采集到的原生视频输入预设的特征提取神经网络,得到与输入视频对应的包含时序信息的多尺度特征序列;
[0008]S120:将所述多尺度特征序列输入预设的第一深度学习模型,生成对输入视频整体内容的描述文本;
[0009]S130:将所述多尺度特征序列输入预设的第二深度学习模型,预测输入视频中的事件数量n,完成对事件起始时间的标记,并生成视频中各事件的描述文本;
[0010]S140:使用预设的文本转语音工具,生成对各个描述文本对应的描述性音频片段,其中,所述描述文本包括视频整体内容的描述文本和各事件的描述文本;
[0011]S150:将所有描述性音频片段、原生视频文件的音频和预设的事件区分音频片段
拼接为描述性音频文件。
[0012]优选的,所述S110中,所述采集到的原生视频包括含有音频的视频和不含有音频的视频。
[0013]优选的,所述S120中,将所述多尺度特征序列输入预设的所述第一深度学习模型,生成对输入视频整体内容的描述文本的方法包括:
[0014]S121:利用预设的视频数据集,训练所述第一深度学习模型,所述的第一深度学习模型可使用包含注意力机制的Encoder

Decoder架构的深度学习模型;
[0015]S122:将需产生描述性音频的视频作为所述的第一深度学习模型的输入数据集,得到相应的描述文本
[0016]优选的,所述S130中,将所述多尺度特征序列输入预设的第二深度学习模型,预测输入视频中的事件数量n,完成对事件起始事件的标记,并生成视频中各事件的描述文本的方法包括:
[0017]S131:利用预设的视频数据集,训练所述第二深度学习模型,所述的第二深度学习模型可使用端到端的并行的基于Tranformer架构;
[0018]S132:将需产生描述性音频的视频作为所述第二深度学习模型的输入数据集,得到的输出为事件数量n、各事件的时间划分以及其对应的描述文本
[0019]优选的,所述S140中,通过文本转语音工具TTS生成的描述文本具体为:
[0020]由通过TTS生成的视频整体描述的音频片段由通过TTS分别生成视频中各事件的描述性音频片段生成的分别代表第一、第二、第三

第n个事件的描述性音频。
[0021]优选的,所述S150中,将所有描述性音频片段、原生视频文件的音频和预设的事件区分音频片段拼接为描述性音频文件的方法包括:
[0022]将所述原生视频文件V
origin
输入所述的第二深度学习模型,得到各个事件的起始时间,并根据各个事件的起始时间将V
origin
划分为视频片段V1,V2,V3...V
n
;;若所述原生视频为有音频的视频,则保留原生音频片段所述预设的事件区分音频片段用于区分描述性音频中的不同事件,其数量为事件数量n,分别用E1,E2,E3...E
n
来表示,每个音频片段可以为空音或定制化的音频;
[0023]若原生视频V
origin
为含有音频的视频,将原生音频片段描述性音频片段以及事件区分音频片段E1,E2,E3...E
n
按照进行拼接,得到最终的描述性音频文件V
final

[0024]若原生视频V
origin
为不含有音频的视频,则按照为不含有音频的视频,则按照的顺序,得到最终的描述性音频文件V
final

[0025]本专利技术还提供了一种用于将视频转化为描述性音频的系统,包括:特征提取单元、输入视频整体内容描述单元、事件划分及描述单元、文本描述转音频单元和音频拼接单元;
[0026]所述特征提取单元用于将采集到的原生视频输入特征提取神经网络,得到与输入视频对应的包含时序信息的多尺度特征序列;
[0027]所述输入视频整体内容描述单元用于将所述多尺度特征序列输入预设的第一深度学习模型,生成对输入视频整体内容的描述文本;
[0028]所述事件划分及描述单元用于将所述多尺度特征序列输入预设的第二深度学习模型,预测输入视频中的事件数量n,完成对事件起始时间的标记,并生成视频中各事件的描述文本;
[0029]所述文本描述转音频单元用于使用文本转语音工具,生成对各个描述文本对应的描述性音频片段,其中,所述描述文本包括视频整体内容的描述文本和各事件的描述文本;
[0030]所述音频拼接单元用于将所有描述性音频片段、原生视频文件的音频和预设的事件区分音频片段的音频拼接为描述性音频文件。
[0031]优选的,所述采集到的原生视频包括含有音频的视频和不含有音频的视频。
[0032]与现有技术相比,本专利技术的有益效果为:
[0033]本专利技术提出了的一种用于将视频转化为描述性音频的方法及系统,充分利用了预设的视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于将视频转化为描述性音频的方法,其特征在于,包括以下步骤:S110:将采集到的原生视频输入预设的特征提取神经网络,得到与输入视频对应的包含时序信息的多尺度特征序列;S120:将所述多尺度特征序列输入预设的第一深度学习模型,生成对输入视频整体内容的描述文本;S130:将所述多尺度特征序列输入预设的第二深度学习模型,预测输入视频中的事件数量n,完成对事件起始时间的标记,并生成视频中各事件的描述文本;S140:使用预设的文本转语音工具,生成对各个描述文本对应的描述性音频片段,其中,所述描述文本包括视频整体内容的描述文本和各事件的描述文本;S150:将所有描述性音频片段、原生视频文件的音频和预设的事件区分音频片段拼接为描述性音频文件。2.根据权利要求1所述的用于将视频转化为描述性音频的方法,其特征在于,所述S110中,所述采集到的原生视频包括含有音频的视频和不含有音频的视频;所述特征提取神经网络可以包括三维卷积神经网络。3.根据权利要求1所述的用于将视频转化为描述性音频的方法,其特征在于,所述S120中,第一深度学习模型用于事件整体描述,其生成对输入视频整体内容的描述文本,具体包括以下步骤:S121:利用预设的视频数据集,训练所述第一深度学习模型,所述的第一深度学习模型可使用包含注意力机制的Encoder

Decoder架构的深度学习模型;S122:将需产生描述性音频的视频作为所述的第一深度学习模型的输入数据集,得到相应的描述文本4.根据权利要求1所述的用于将视频转化为描述性音频的方法,其特征在于,所述S130中,第二深度学习模型用于事件分段描述,其作用在于预测输入视频中的事件数量n,完成对事件起始时间的标记,并生成视频中各事件的描述文本,具体包括以下步骤:S131:利用预设的视频数据集,训练所述第二深度学习模型,所述的第二深度学习模型可使用端到端的并行的基于Tranformer的架构;S132:将需产生描述性音频的视频作为所述第二深度学习模型的输入数据集,得到的输出为事件数量n、各事件的时间划分以及其对应的描述文本5.根据权利要求1所述的用于将视频转化为描述性音频的方法,其特征在于,所述S140中,通过文本转语音工具TTS生成的描述文本具体为:由通过TTS生成的视频整体描述的音频片段由通过TTS分别生成视频中各事件的描述性音频片段生成的分别代表第一、第二、第三

第n个事...

【专利技术属性】
技术研发人员:许存禄余纳川赵俊杰苏伟
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1