一种用于将视频转化为描述性音频的方法及系统技术方案

技术编号：38629541 阅读：16 留言：0更新日期：2023-08-31 18:29

本发明专利技术公开了一种用于将视频转化为描述性音频的方法及系统，利用采集到的视频数据集，训练特征提取网络以提取视频的时空特征，并生成包含时序信息的多尺度特征序列的表示。利用深度学习模型拟合视频特征和文本特征，学习视频的语义信息，以此生成对输入视频整体内容的文本描述；学习视频中帧聚类，按照事件对视频进行划分，学习视频的时序信息，并生成分段描述。最后，使用文本转语音工具生成对视频文本描述对应的音频片段，并将它们拼接在一起，以生成连续、清晰的描述。本发明专利技术利用神经网络有效地理解视频的语义信息，并使用语音描述信息扩展视频的理解方式，实现了对视频的音频描述，有效地帮助用户以听觉方式理解视频内容。容。容。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于将视频转化为描述性音频的方法及系统

[0001]本专利技术属于模型构建及视频处理领域，具体涉及一种用于将视频转化为描述性音频的方法及系统。

技术介绍

[0002]目前，在信息时代，我们的生活都离不开视频。但是观看视频需要大量的眼部注意力，使我们很难同时进行其他任务。此外，长时间观看视频会导致眼睛干涩、酸胀，长此以往会引发各种眼部疾病。但现阶段，暂无适用于视频的自动化描述方法，如果通过人工标注描述的方式，具有极高的复杂性，无法满足大规模的视频描述任务。而随着深度学习的飞速发展以及高计算量设备的大量普及，利用计算机视觉和自然语言处理技术进行视频描述生成具有重要的意义。
[0003]现阶段基于深度学习的视频理解技术不断成熟。视频理解旨在通过计算机，自动检测视频中出现的场景、人物、物体等静态元素，以及时间域上的动作和事件，反映各视觉对象的时空变化，并最终选择合适的词汇和句式，利用过去和未来的上下文内容信息，识别视频中整体事件的关系，并将所有事件描述出来，生成的描述内容具有完整和连续的特点。

技术实现思路

[0004]针对现有技术的不足，本专利技术提出了一种用于将视频转化为描述性音频的方法及系统，该方法首先根据采集到的视频数据集，训练特征提取网络以提取视频的时空特征，生成包含时序信息的多尺度特征序列。接着，使用深度学习模型学习视频特征序列和文本特征序列之间的对应关系，从而获取视频的语义信息，并生成对输入视频整体内容的描述文本。同时，使用深度学习模型还能学习视频帧之间的聚类关系，将视频按照事件进行...

【技术保护点】

【技术特征摘要】
1.一种用于将视频转化为描述性音频的方法，其特征在于，包括以下步骤：S110：将采集到的原生视频输入预设的特征提取神经网络，得到与输入视频对应的包含时序信息的多尺度特征序列；S120：将所述多尺度特征序列输入预设的第一深度学习模型，生成对输入视频整体内容的描述文本；S130：将所述多尺度特征序列输入预设的第二深度学习模型，预测输入视频中的事件数量n，完成对事件起始时间的标记，并生成视频中各事件的描述文本；S140：使用预设的文本转语音工具，生成对各个描述文本对应的描述性音频片段，其中，所述描述文本包括视频整体内容的描述文本和各事件的描述文本；S150：将所有描述性音频片段、原生视频文件的音频和预设的事件区分音频片段拼接为描述性音频文件。2.根据权利要求1所述的用于将视频转化为描述性音频的方法，其特征在于，所述S110中，所述采集到的原生视频包括含有音频的视频和不含有音频的视频；所述特征提取神经网络可以包括三维卷积神经网络。3.根据权利要求1所述的用于将视频转化为描述性音频的方法，其特征在于，所述S120中，第一深度学习模型用于事件整体描述，其生成对输入视频整体内容的描述文本，具体包括以下步骤：S121：利用预设的视频数据集，训练所述第一深度学习模型，所述的第一深度学习模型可使用包含注意力机制的Encoder
‑
Decoder架构的深度学习模型；S122：将需产生描述性音频的视频作为所述的第一深度学习模型的输入数据集，得到相应的描述文本4.根据权利要求1所述的用于将视频转化为描述性音频的方法，其特征在于，所述S130中，第二深度学习模型用于事件分段描述，其作用在于预测输入视频中的事件数量n，完成对事件起始时间的标记，并生成视频中各事件的描述文本，具体包括以下步骤：S131：利用预设的视频数据集，训练所述第二深度学习模型，所述的第二深度学习模型可使用端到端的并行的基于Tranformer的架构；S132：将需产生描述性音频的视频作为所述第二深度学习模型的输入数据集，得到的输出为事件数量n、各事件的时间划分以及其对应的描述文本5.根据权利要求1所述的用于将视频转化为描述性音频的方法，其特征在于，所述S140中，通过文本转语音工具TTS生成的描述文本具体为：由通过TTS生成的视频整体描述的音频片段由通过TTS分别生成视频中各事件的描述性音频片段生成的分别代表第一、第二、第三
…
第n个事...

【专利技术属性】
技术研发人员：许存禄，余纳川，赵俊杰，苏伟，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人