当前位置: 首页 > 专利查询>山东大学专利>正文

视频描述文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号:34369228 阅读:51 留言:0更新日期:2022-07-31 10:19
本公开关于一种视频描述文本生成方法、装置、设备及存储介质,该方法包括获取待处理视频数据对应的至少两种模态数据;将至少两种模态数据输入模态关联网络,得到至少两种模态数据各自对应的模态关联结果;模态关联结果表征至少两种模态数据,各自与待处理视频数据的主题内容之间的关联程度;基于模态关联结果对至少两种模态数据进行过滤,得到过滤后的模态数据;将过滤后的模态数据输入描述文本生成网络,得到待处理视频数据的描述文本;描述文本用于描述主题内容。本公开实施例能够排除某些模态数据的噪声的干扰,进而可以生成更贴合待处理视频数据的主题内容的描述文本,提高描述文本的生成精度。文本的生成精度。文本的生成精度。

Video description text generation method, device, device and storage medium

【技术实现步骤摘要】
视频描述文本生成方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种视频描述文本生成方法、装置、设备及存储介质。

技术介绍

[0002]相关技术中,通常对给定的多模态数据(包含视觉模态、声音模态、文本模态等)进行对齐和融合,生成视频内容的详细描述文本。
[0003]然而相关技术通常适应于样本间模态信息差别较小的数据,但短视频数据样本之间的多样性差别较大,使用相关技术中的方案使得描述文本的生成精度较低,从而无法满足短视频描述文本的生成需求。

技术实现思路

[0004]本公开提供一种视频描述文本生成方法、装置、设备及存储介质,以至少解决相关技术中描述文本的生成精度较低,无法满足短视频描述文本的生成需求的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种视频描述文本生成方法,包括:
[0006]获取待处理视频数据对应的至少两种模态数据;
[0007]将所述至少两种模态数据输入模态关联网络,得到所述至少两种模态数据各自对应的模态关联结果;所述模态关联结果表征所述至少两种模态数据,各自与所述待处理视频数据的主题内容之间的关联程度;所述模态关联网络为基于样本视频数据对应的至少两种样本模态数据,对第一神经网络进行关联程度训练得到,所述至少两种样本模态数据各自标注有与所述样本视频数据的样本描述文本之间的样本关联程度;所述样本描述文本用于描述所述样本视频数据的样本主题内容;
[0008]基于所述模态关联结果对所述至少两种模态数据进行过滤,得到过滤后的模态数据;
[0009]将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本;所述描述文本用于描述所述主题内容;所述描述文本生成网络为基于过滤过后的样本模态数据对第二神经网络进行文本生成训练得到,所述过滤过后的样本模态数据为基于所述样本关联程度对所述至少两种样本模态数据进行过滤得到。
[0010]在一示例性的实施例中,所述基于所述模态关联结果对所述至少两种模态数据进行过滤,得到过滤后的模态数据,包括:
[0011]基于所述模态关联结果,从所述至少两种模态数据中确定出满足预设条件的模态数据;
[0012]过滤所述满足预设条件的模态数据,得到所述过滤后的模态数据。
[0013]在一示例性的实施例中,所述将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本,包括:
[0014]在所述过滤后的模态数据的数量为至少两个的情况下,对至少两个所述过滤后的模态数据进行融合,得到融合模态数据;
[0015]将所述融合模态数据输入所述描述文本生成网络,得到所述描述文本。
[0016]在一示例性的实施例中,所述将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本,包括:
[0017]在所述过滤后的模态数据的数量为一个的情况下,将所述过滤后的模态数据输入所述描述文本生成网络,得到所述描述文本。
[0018]在一示例性的实施例中,所述方法还包括:
[0019]获取所述至少两种样本模态数据;
[0020]基于所述至少两种样本模态数据对所述第一神经网络进行关联程度训练,直至所述第一神经网络的输出结果与所述样本关联程度之间满足预设条件,得到所述模态关联网络。
[0021]在一示例性的实施例中,所述方法还包括:
[0022]基于所述样本关联程度对所述至少两种样本模态数据进行过滤,得到所述过滤后的样本模态数据;
[0023]基于所述过滤后的样本模态数据对所述第二神经网络进行文本生成训练,得到所述描述文本生成网络。
[0024]在一示例性的实施例中,所述基于所述过滤后的样本模态数据对所述第二神经网络进行文本生成训练,得到所述描述文本生成网络,包括:
[0025]在所述过滤后的样本模态数据的数量为至少两个的情况下,对至少两个所述过滤后的样本模态数据进行融合,得到融合样本模态数据;
[0026]基于所述融合样本模态数据对所述第二神经网络进行文本生成训练,直至所述第二神经网络的输出结果与所述样本描述文本之间满足预设条件,得到所述描述文本生成网络。
[0027]在一示例性的实施例中,所述基于所述过滤后的样本模态数据对所述第二神经网络进行文本生成训练,得到所述描述文本生成网络,包括:
[0028]在所述过滤后的样本模态数据的数量为一个的情况下,基于所述过滤后的样本模态数据对所述第二神经网络进行文本生成训练,直至所述第二神经网络的输出结果与所述样本描述文本之间满足预设条件,得到所述描述文本生成网络。
[0029]在一示例性的实施例中,所述获取所述至少两种样本模态数据,包括:
[0030]获取历史搜索日志数据;
[0031]从所述历史搜索日志数据中提取所述样本视频数据以及与所述样本视频数据匹配的搜索文本;
[0032]将所述搜索文本作为所述样本描述文本;
[0033]在所述样本视频数据上标注所述样本描述文本,得到标注有所述样本描述文本的样本视频数据;
[0034]从所述标注有所述样本描述文本的样本视频数据中,提取所述至少两种样本模态数据。
[0035]根据本公开实施例的第二方面,提供一种视频描述文本生成装置,包括:
[0036]模态数据获取模块,被配置为执行获取待处理视频数据对应的至少两种模态数据;
[0037]模态关联结果确定模块,被配置为执行将所述至少两种模态数据输入模态关联网络,得到所述至少两种模态数据各自对应的模态关联结果;所述模态关联结果表征所述至少两种模态数据,各自与所述待处理视频数据的主题内容之间的关联程度;所述模态关联网络为基于样本视频数据对应的至少两种样本模态数据,对第一神经网络进行关联程度训练得到,所述至少两种样本模态数据各自标注有与所述样本视频数据的样本描述文本之间的样本关联程度;所述样本描述文本用于描述所述样本视频数据的样本主题内容;
[0038]模态数据过滤模块,被配置为执行基于所述模态关联结果对所述至少两种模态数据进行过滤,得到过滤后的模态数据;
[0039]描述文本确定模块,被配置为执行将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本;所述描述文本用于描述所述主题内容;所述描述文本生成网络为基于过滤过后的样本模态数据对第二神经网络进行文本生成训练得到,所述过滤过后的样本模态数据为基于所述样本关联程度对所述至少两种样本模态数据进行过滤得到。
[0040]在一示例性的实施例中,所述模态数据过滤模块,包括:
[0041]模态数据确定单元,被配置为执行基于所述模态关联结果,从所述至少两种模态数据中确定出满足预设条件的模态数据;
[0042]模态数据过滤单元,被配置为执行过滤所述满足预设条件的模态数据,得到所述过滤后的模态数据。
[0043]在一示例性的实施例中,所述描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频描述文本生成方法,其特征在于,包括:获取待处理视频数据对应的至少两种模态数据;将所述至少两种模态数据输入模态关联网络,得到所述至少两种模态数据各自对应的模态关联结果;所述模态关联结果表征所述至少两种模态数据,各自与所述待处理视频数据的主题内容之间的关联程度;所述模态关联网络为基于样本视频数据对应的至少两种样本模态数据,对第一神经网络进行关联程度训练得到,所述至少两种样本模态数据各自标注有与所述样本视频数据的样本描述文本之间的样本关联程度;所述样本描述文本用于描述所述样本视频数据的样本主题内容;基于所述模态关联结果对所述至少两种模态数据进行过滤,得到过滤后的模态数据;将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本;所述描述文本用于描述所述主题内容;所述描述文本生成网络为基于过滤过后的样本模态数据对第二神经网络进行文本生成训练得到,所述过滤过后的样本模态数据为基于所述样本关联程度对所述至少两种样本模态数据进行过滤得到。2.根据权利要求1所述的视频描述文本生成方法,其特征在于,所述基于所述模态关联结果对所述至少两种模态数据进行过滤,得到过滤后的模态数据,包括:基于所述模态关联结果,从所述至少两种模态数据中确定出满足预设条件的模态数据;过滤所述满足预设条件的模态数据,得到所述过滤后的模态数据。3.根据权利要求1所述的视频描述文本生成方法,其特征在于,所述将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本,包括:在所述过滤后的模态数据的数量为至少两个的情况下,对至少两个所述过滤后的模态数据进行融合,得到融合模态数据;将所述融合模态数据输入所述描述文本生成网络,得到所述描述文本。4.根据权利要求1所述的视频描述文本生成方法,其特征在于,所述将所述过滤后的模态数据输入描述文本生成网络,得到所述待处理视频数据的描述文本,包括:在所述过滤后的模态数据的数量为一个的情况下,将所述过滤后的模态数据输入所述描述文本生成网络,得到所述描述文本。5.根据权利要求1至4中任一项所述的视频描述文本生成方法,其特征在于,所述方法还包括:获取所述至少两种样本模态数据;基于所述至少两种样本模态数据对...

【专利技术属性】
技术研发人员:贾梦朝聂礼强杨浩哲尉寅伟吴建龙张博威戴蒙
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1