视频描述文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号：34369228 阅读：51 留言：0更新日期：2022-07-31 10:19

本公开关于一种视频描述文本生成方法、装置、设备及存储介质，该方法包括获取待处理视频数据对应的至少两种模态数据；将至少两种模态数据输入模态关联网络，得到至少两种模态数据各自对应的模态关联结果；模态关联结果表征至少两种模态数据，各自与待处理视频数据的主题内容之间的关联程度；基于模态关联结果对至少两种模态数据进行过滤，得到过滤后的模态数据；将过滤后的模态数据输入描述文本生成网络，得到待处理视频数据的描述文本；描述文本用于描述主题内容。本公开实施例能够排除某些模态数据的噪声的干扰，进而可以生成更贴合待处理视频数据的主题内容的描述文本，提高描述文本的生成精度。文本的生成精度。文本的生成精度。

Video description text generation method, device, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
视频描述文本生成方法、装置、设备及存储介质

[0001]本公开涉及计算机
，尤其涉及一种视频描述文本生成方法、装置、设备及存储介质。

技术介绍

[0002]相关技术中，通常对给定的多模态数据(包含视觉模态、声音模态、文本模态等)进行对齐和融合，生成视频内容的详细描述文本。
[0003]然而相关技术通常适应于样本间模态信息差别较小的数据，但短视频数据样本之间的多样性差别较大，使用相关技术中的方案使得描述文本的生成精度较低，从而无法满足短视频描述文本的生成需求。

技术实现思路

[0004]本公开提供一种视频描述文本生成方法、装置、设备及存储介质，以至少解决相关技术中描述文本的生成精度较低，无法满足短视频描述文本的生成需求的问题。本公开的技术方案如下：
[0005]根据本公开实施例的第一方面，提供一种视频描述文本生成方法，包括：
[0006]获取待处理视频数据对应的至少两种模态数据；
[0007]将所述至少两种模态数据输入模态关联网络，得到所述至少两种模态数据各自对应的模态关联结果；所述模态关联结果表征所述至少两种模态数据，各自与所述待处理视频数据的主题内容之间的关联程度；所述模态关联网络为基于样本视频数据对应的至少两种样本模态数据，对第一神经网络进行关联程度训练得到，所述至少两种样本模态数据各自标注有与所述样本视频数据的样本描述文本之间的样本关联程度；所述样本描述文本用于描述所述样本视频数据的样本主题内容；
[0008]基于所述模态关联结果对所述至少两种模态数...

【技术保护点】

【技术特征摘要】
1.一种视频描述文本生成方法，其特征在于，包括：获取待处理视频数据对应的至少两种模态数据；将所述至少两种模态数据输入模态关联网络，得到所述至少两种模态数据各自对应的模态关联结果；所述模态关联结果表征所述至少两种模态数据，各自与所述待处理视频数据的主题内容之间的关联程度；所述模态关联网络为基于样本视频数据对应的至少两种样本模态数据，对第一神经网络进行关联程度训练得到，所述至少两种样本模态数据各自标注有与所述样本视频数据的样本描述文本之间的样本关联程度；所述样本描述文本用于描述所述样本视频数据的样本主题内容；基于所述模态关联结果对所述至少两种模态数据进行过滤，得到过滤后的模态数据；将所述过滤后的模态数据输入描述文本生成网络，得到所述待处理视频数据的描述文本；所述描述文本用于描述所述主题内容；所述描述文本生成网络为基于过滤过后的样本模态数据对第二神经网络进行文本生成训练得到，所述过滤过后的样本模态数据为基于所述样本关联程度对所述至少两种样本模态数据进行过滤得到。2.根据权利要求1所述的视频描述文本生成方法，其特征在于，所述基于所述模态关联结果对所述至少两种模态数据进行过滤，得到过滤后的模态数据，包括：基于所述模态关联结果，从所述至少两种模态数据中确定出满足预设条件的模态数据；过滤所述满足预设条件的模态数据，得到所述过滤后的模态数据。3.根据权利要求1所述的视频描述文本生成方法，其特征在于，所述将所述过滤后的模态数据输入描述文本生成网络，得到所述待处理视频数据的描述文本，包括：在所述过滤后的模态数据的数量为至少两个的情况下，对至少两个所述过滤后的模态数据进行融合，得到融合模态数据；将所述融合模态数据输入所述描述文本生成网络，得到所述描述文本。4.根据权利要求1所述的视频描述文本生成方法，其特征在于，所述将所述过滤后的模态数据输入描述文本生成网络，得到所述待处理视频数据的描述文本，包括：在所述过滤后的模态数据的数量为一个的情况下，将所述过滤后的模态数据输入所述描述文本生成网络，得到所述描述文本。5.根据权利要求1至4中任一项所述的视频描述文本生成方法，其特征在于，所述方法还包括：获取所述至少两种样本模态数据；基于所述至少两种样本模态数据对...

【专利技术属性】
技术研发人员：贾梦朝，聂礼强，杨浩哲，尉寅伟，吴建龙，张博威，戴蒙，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人