基于自然语言引导的场景自适应视频压缩方法及系统技术方案

技术编号：43377896 阅读：14 留言：0更新日期：2024-11-19 17:56

本发明专利技术公开了一种基于自然语言引导的场景自适应视频压缩方法及系统，该方法包括获取原始视频数据流，解析为连续的视频帧序列；获取与场景相关的自然语言引导文本，确定当前场景的类型，生成增强后的场景描述文本；使用场景分类系统进行深度分析，生成场景特征向量；与预训练的大语言模型结合，生成优化策略；提取局部和全局特征，生成综合特征图；进行运动估计，生成运动向量和残差信息；融和生成复合特征图；使用分水岭算法生成掩膜；对复合特征图进行自适应压缩，输出特征数据；采用上下文自适应二进制算术编码进行进一步的数据压缩，输出压缩数据比特流。本发明专利技术提升了视频压缩的效率和压缩后视频的质量，实现了在不同场景下的智能视频压缩。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频压缩领域，尤其是基于自然语言引导的场景自适应视频压缩方法及系统。

技术介绍

1、随着数字视频内容的广泛应用，视频压缩技术变得越来越重要。其中，电力巡检是一个需要频繁采集和传输视频数据的场景。电力巡检通常涉及对电力设备和输电线路进行监测和维护，以确保电网的安全和稳定运行。在这个过程中，视频数据的高效传输和存储对于准确识别问题和快速决策至关重要。视频压缩旨在通过减少数据量，降低传输带宽需求和存储成本，同时保持可接受的视觉质量，以实现高效的视频传输和存储。然而，传统的视频压缩方法存在一些挑战，如固定的压缩算法和参数，无法适应不同场景和内容的特点，导致在某些情况下产生质量损失或低效的压缩。

2、传统的视频压缩方法在电力巡检场景中存在一些挑战，首先，压缩倍率是一个重要的指标，决定了视频数据的压缩程度。较高的压缩倍率可以减少数据传输和存储成本，但可能导致视觉质量下降和细节失真增加，影响电力巡检问题的准确识别。因传统方法通常采用固定的压缩倍率，无法根据具体场景的特点进行灵活调整，无法充分平衡压缩效率和图像质量。同时，电力巡检涉及不同的场景，例如高空杆塔、变电站、输电线路等，基于固定的压缩算法和参数，无法充分适应不同巡检场景和巡检目标的特点，这会在某些情况下产生质量损失和低效压缩的问题。

技术实现思路

1、专利技术目的，提供一种基于自然语言引导的场景自适应视频压缩方法及系统，以解决现有技术存在的上述问题。

2、技术方案，基于自然语言引导的场景自适应视频压缩方法，包括如下步骤：

3、s1、获取原始视频数据流，将原始视频数据流解析为连续的视频帧序列；获取与场景相关的自然语言引导文本，构建文本特征向量，基于文本特征向量和预定义的场景类型模板，计算场景相关度得分；基于场景相关度得分，确定当前场景的类型；将当前场景的类型与自然语言引导文本结合，生成增强后的场景描述文本；其中原始视频数据流包括高压电线的外观状态、周边环境状况和可能的故障点特征；

4、s2、基于增强后的场景描述文本，使用基于规则的场景分类系统进行深度分析，生成场景特征向量；将场景特征向量与预训练的大语言模型结合，生成针对当前场景的优化策略；基于视频帧序列和优化策略，采用基于小波变换的多尺度分析方法，提取局部和全局特征；基于局部和全局特征，重构高分辨率特征和低分辨率特征；结合高分辨率特征和低分辨率特征，生成综合特征图；

5、s3、基于综合特征图和视频帧序列，使用六边形块匹配算法进行运动估计，生成运动向量和残差信息；对运动向量和残差信息进行编码和压缩，输出压缩后的运动信息数据；基于综合特征图和压缩后的运动信息数据，进行特征融和，生成复合特征图；

6、s4、基于复合特征图和优化策略，使用改进的分水岭算法生成前景和背景的掩膜；基于前景和背景的掩膜，对复合特征图进行自适应压缩，输出压缩后的特征数据；

7、s5、基于压缩后的特征数据，采用上下文自适应二进制算术编码进行进一步的数据压缩，输出最终的压缩数据比特流；基于最终的压缩数据比特流，采用错误恢复机制和鲁棒性增强措施，输出具有错误恢复能力的压缩数据包。

8、基于自然语言引导的场景自适应视频压缩系统，包括：

9、至少一个处理器；以及，

10、与至少一个所述处理器通信连接的存储器；其中，

11、所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现所述的基于自然语言引导的场景自适应视频压缩方法。

12、有益效果，本专利技术提出了一种基于自然语言引导的场景自适应视频压缩方法，对前景区域和背景区域采用不同的压缩策略，使得压缩后的视频既能保证重要信息的完整性，又能有效减少数据量；同时还提升了视频压缩的效率和压缩后视频的质量，实现了在不同场景下的智能视频压缩。

本文档来自技高网...

【技术保护点】

1.基于自然语言引导的场景自适应视频压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤S1进一步为：

3.根据权利要求2所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤S2进一步为：

4.根据权利要求3所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤S3进一步为：

5.根据权利要求4所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤S4进一步为：

6.根据权利要求5所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤S5进一步为：

7.根据权利要求6所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，还包括对步骤S25的综合特征图进行优化，具体为：

8.根据权利要求6所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤S2还包括：

9.根据权利要求6所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，还包括对步骤S33中的运动信息数据进行优化，具体为：

10.基于自然语言引导的场景自适应视频压缩系统，其特征在于，包括：

...

【技术特征摘要】

1.基于自然语言引导的场景自适应视频压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤s1进一步为：

3.根据权利要求2所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤s2进一步为：

4.根据权利要求3所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤s3进一步为：

5.根据权利要求4所述的基于自然语言引导的场景自适应视频压缩方法，其特征在于，步骤s4进一步为：

6.根据权利要求5所述...

【专利技术属性】
技术研发人员：冷聪，魏学备，海雷，
申请(专利权)人：中科方寸知微南京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人