短视频的理解文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号：46579175 阅读：0 留言：0更新日期：2025-10-10 21:20

本发明专利技术涉及计算机视觉技术领域，可运用于医疗康复领域和金融科技领域，公开了短视频的理解文本生成方法、装置、设备及存储介质，应用于康复训练动作合规性监测场景，或可运用于远程开户身份核验与行为分析场景中，其中方法包括：获取待处理短视频，并对待处理短视频进行预处理，生成预处理后视频帧序列；提取预处理后视频帧序列中的时空特征，得到目标时空特征序列；对目标时空特征序列进行特征增强和特征调制，得到调制后特征序列；对调制后特征序列进行跨模态注意力解码，生成初始描述文本；对初始描述文本进行文本优化处理，生成目标描述文本。本发明专利技术提高了短视频的理解文本生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，可运用于医疗康复领域和金融科技领域，尤其涉及一种短视频的理解文本生成方法、装置、设备及存储介质。

技术介绍

1、视频理解与文本生成技术是计算机视觉与自然语言处理的交叉领域，其核心目标是从视频序列中提取语义信息并生成准确的文本描述。短视频的理解与文本生成方法可以运用于医疗康复领域和金融科技领域，例如，可以运用于康复训练动作合规性监测场景，以监控病人的康复情况，或可运用于远程开户身份核验与行为分析场景中，以通过短视频进行远程用户身份校验和行为分析。

2、传统方法主要依赖手工设计特征(如sift、hog)与统计模型(如隐马尔可夫模型)，但这类方法难以捕捉视频中的复杂时空关联。随着深度学习的发展，基于卷积神经网络(cnn)和循环神经网络(rnn)的编码器-解码器框架成为主流，其中时空特征提取与注意力机制是两大关键技术。在时空特征提取方面，3d-cnn和双向gru被广泛用于建模视频的时空动态性。然而，现有方法往往忽略视频中大量存在的噪声(如背景干扰、运动模糊)和冗余信息，导致特征表达不够鲁棒。为解决这一问题，注意力...

【技术保护点】

1.一种短视频的理解文本生成方法，其特征在于，包括：

2.根据权利要求1所述的短视频的理解文本生成方法，其特征在于，所述提取所述预处理后视频帧序列中的时空特征，得到目标时空特征序列，包括：

3.根据权利要求1所述的短视频的理解文本生成方法，其特征在于，所述对所述目标时空特征序列进行特征增强和特征调制，得到调制后特征序列，包括：

4.根据权利要求1所述的短视频的理解文本生成方法，其特征在于，所述对所述调制后特征序列进行跨模态注意力解码，生成初始描述文本，包括：

5.根据权利要求4所述的短视频的理解文本生成方法，其特征在于，所述通过长短期记忆网...

【技术特征摘要】

1.一种短视频的理解文本生成方法，其特征在于，包括：

2.根据权利要求1所述的短视频的理解文本生成方法，其特征在于，所述提取所述预处理后视频帧序列中的时空特征，得到目标时空特征序列，包括：

4.根据权利要求1所述的短视频的理解文本生成方法，其特征在于，所述对所述调制后特征序列进行跨模态注意力解码，生成初始描述文本，包括：

5.根据权利要求4所述的短视频的理解文本生成方法，其特征在于，所述通过长短期记忆网络基于所述调制后特征序列进行特征处理，生成上下文向量，包括：

6.根据权利要求1至5任一项所述的短视...

【专利技术属性】
技术研发人员：舒畅，陈远旭，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人