对视频图像中的字幕文本进行增强处理的方法及系统技术方案

技术编号：40243563 阅读：4 留言：0更新日期：2024-02-02 22:40

本发明专利技术公开了对视频图像中的字幕文本进行增强处理的方法及系统，涉及视频图像字幕文本增强处理技术领域，该系统通过深度学习模型和实时字幕检测算法，实现对视频流图像中字幕区域的准确检测，并通过字幕区域追踪模块实现连续追踪字幕位置。收集用户对字幕外观的调整行为数据，计算用户偏好向量系数Xg，并制定相应的第一配置增强处理策略，包括字幕大小、颜色、透明度和滚动速度的调整。采集视频播放场景的环境数据，并建立环境条件综合评估模型评估后，配置为第二自适应处理策略，以适应不同环境条件。该系统综合考虑了用户的个性化偏好、实时字幕检测、环境因素和方言翻译，提供了更加智能、贴近用户需求的字幕增强处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频图像字幕文本增强处理，具体为对视频图像中的字幕文本进行增强处理的方法及系统。

技术介绍

1、随着数字媒体技术的飞速发展，人们在日常生活中越来越频繁地接触视频内容，其中字幕作为一种重要的信息传递手段，广泛应用于电影、电视剧和在线视频等场景。

2、传统视频图像中的字幕增强方法在满足基本需求的同时，往往没有充分考虑用户的个性化偏好和不同环境条件对字幕显示效果的影响。传统方法往往缺乏实时性、自适应性和个性化定制的特点，导致在特殊情境下字幕的显示效果不尽如人意。例如，在学生在观看学习视频资料过程中，字幕滚动速度过快，会导致学生用户难以理解所呈现的字幕信息，影响学习效果；例如光照条件不足环境中，字幕难以辨认；例如用户观看过程中，设备发生抖动，减弱字幕的可读性；影响用户体验。

技术实现思路

1、针对现有技术的不足，本专利技术提供了对视频图像中的字幕文本进行增强处理的方法及系统，以解决
技术介绍
中提到的问题。

2、为实现以上目的，本专利技术通过以下技术方案予以实现：对视频图像中的字幕文本进行增强处理的方法，包括以下步骤：

3、步骤一、建立深度学习模型：

4、构建深度学习模型，实现对视频流图像中字幕区域的实时检测。采用实时字幕检测算法，其中包括faster r-cnn、yolo和ssd其中一种，以获取字幕区域的坐标和边界框信息；

5、在字幕区域追踪模块中设置追踪算法，用于连续追踪字幕区域的坐标位置；引入目标追踪算法，用于在视

6、步骤二、用户行为数据采集：

7、采集用户历史调整行为数据，包括用户对字幕外观的调整偏好；计算获取用户偏好向量系数xg，作为第一配置增强处理策略；第一配置增强处理策略包括：用于个性化调整字幕外观，包括字体大小、颜色、透明度和字幕滚动速度；

8、步骤三、环境数据采集：

9、采集视频播放场景的环境数据，所述环境数据包括遮挡阴影面积mj、背景复杂度fz、目标设备抖动度dd、光照强度gz、光照色温sw和光照饱和度bhd；

10、步骤四、匹配环境数据配置第二自适应处理策略：

11、建立环境条件综合评估模型，用于将遮挡阴影面积mj、背景复杂度fz、目标设备抖动度dd进行拟合生成第一环境条件系数hj1，并将对光照强度gz、光照色温sw和光照饱和度bhd进行拟合生成第二光照条件系数gz2，依据第一环境条件系数hj1和第二光照条件系数gz2配置为第二自适应处理策略，动态调整增强处理的参数，包括对比度、亮度和透明度，以适应不同环境条件；

12、步骤五、配置切换功能和保存用户偏好设置：

13、在用户界面上提供选项，允许用户切换第一配置增强处理策略和第二自适应处理策略，当用户输入第一配置增强处理策略后，设置加载记忆功能，在用户再次打开应用或重新观看视频时，直接加载其个性化设置。

14、优选的，所述步骤一具体包括：s11、数据集准备，收集包含字幕区域或标注的视频数据集；

15、s12、建立深度学习模型，并设置用于检测字幕区域的卷积层、池化层和用于输出坐标和边界框的连接层；

16、s13、使用视频数据集对深度学习模型进行训练后，添加字幕区域追踪模块，采用基于卡尔曼滤波器，用于连续追踪字幕区域的位置。

17、优选的，所述s13包括：s131、当初次检测到字幕区域时，将初始位置作为初始状态输入至卡尔曼滤波器；

18、s132、通过卡尔曼滤波器定义初始状态向量x和协方差矩阵p；字幕区域的位置用（x，y），滚动速度分量表示为（vx，vy），则初始状态向量x由以下公式进行生成：

19、；；

20、其中，、为字幕位置的初始方差，和为字幕滚动速度的初始方差；

21、接下来，通过状态转移矩阵a计算字幕匀速滚动运动的在下一刻的状态，并通过观测过程噪声协方差矩阵q预测字幕状态转移过程中的影响；

22、；；

23、其中，表示字幕滚动运动两次测量之间的时间间隔，、、和为字幕位置加滚动速度方差；

24、将状态向量映射至观测空间，获得观测矩阵h和观测噪声协方差矩阵r；r表示观测值和实际值之间的误差：

25、；；

26、s133、依据s132中的初始状态向量x、协方差矩阵p、状态转移矩阵a、观测过程噪声协方差矩阵q、观测矩阵h和状态转移矩阵a依据实际观测进行调整，并在追踪过程中每个时间步进行重复进行。

27、优选的，所述步骤二包括：s21、收集用户在过去视频观看经历中对字幕外挂进行的调整行为数据，并以时间序列的方式记录，存储在用户行为数据库；所述调整行为数据包括用户调整字幕的大小、颜色、透明度和字幕滚动速度；

28、s22、对用户行为数据库进行分析，计算获得用户偏好向量系数xg，整理对用户在不同情境下的用户偏好向量系数xg，制定相对应情境下的第一配置增强处理策略；

29、s23、当用户发出调整命令时，识别当前视频图像情境，对应设置第一配置增强处理策略进行相应的自动调整。

30、优选的，所述用户偏好向量系数xg获取的方式是：提取用户行为数据库中的字幕大小特征dx、字幕颜色特征ys、透明度特征tmd、对比度特征dbd和滚动速度特征sd，归一化处理后，通过以下公式计算获得用户偏好向量系数xg：

31、；

32、式中，f、b、c、d和e是用于调整字幕大小特征dx、字幕颜色特征ys、透明度特征tmd、对比度特征dbd和滚动速度特征sd的比例系数，依据用户需求进行调整设置；

33、其中，滚动速度特征sd的获取方式为：依据s132中的初始状态向量x、协方差矩阵p、状态转移矩阵a、观测过程噪声协方差矩阵q、观测矩阵h和状态转移矩阵a中的输出，提取滚动速度分量（vx，vy），并通过以下公式生成滚动速度特征sd：

34、；

35、其中，滚动速度分量（vx，vy）是从卡尔曼滤波器输出得到；滚动速度特征sd的计算含义为：实时获取滚动速度特征sd，设置在字幕滚动过程中依据用户偏好进行动态调整。

36、优选的，所述遮挡阴影面积mj通过lidar激光雷达传感器检测播放场景中的物体，识别遮挡阴影面积；所述背景复杂度fz通过识别图像中物体数量和纹理变化评估获得；所述目标设备抖动度dd通过振动传感器直接检测目标设备获取；所述光照强度gz通过光照传感器测量获取；所述光照色温sw采用色温传感器直接测量环境中光源的色温；所述光照饱和度bhd通过图像处理算法计算视频图像中的饱和度，通过转换图像到hsv色彩空间，然后提取饱和度分量，进行统计和分析，以获得图像整体的饱和度。

37、优选的，将遮挡阴影面积mj、背景复杂度fz、目标设备抖动度dd无量纲处理后，通过以下拟合公式生成第一环境条件系数hj1：

38、；

3本文档来自技高网...

【技术保护点】

1.对视频图像中的字幕文本进行增强处理的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述步骤一具体包括：S11、数据集准备，收集包含字幕区域或标注的视频数据集；

3.根据权利要求2所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述S13包括：S131、当初次检测到字幕区域时，将初始位置作为初始状态输入至卡尔曼滤波器；

4.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述步骤二包括：S21、收集用户在过去视频观看经历中对字幕外挂进行的调整行为数据，并以时间序列的方式记录，存储在用户行为数据库；所述调整行为数据包括用户调整字幕的大小、颜色、透明度和字幕滚动速度；

5.根据权利要求4所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述用户偏好向量系数Xg获取的方式是：提取用户行为数据库中的字幕大小特征DX、字幕颜色特征YS、透明度特征TMD、对比度特征DBD和滚动速度特征SD，归一化处理后，通过以下公式计算获得用户偏好向量系数Xg：

6.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述遮挡阴影面积Mj通过LiDAR激光雷达传感器检测播放场景中的物体，识别遮挡阴影面积；所述背景复杂度Fz通过识别图像中物体数量和纹理变化评估获得；所述目标设备抖动度Dd通过振动传感器直接检测目标设备获取；所述光照强度Gz通过光照传感器测量获取；所述光照色温Sw采用色温传感器直接测量环境中光源的色温；所述光照饱和度Bhd通过图像处理算法计算视频图像中的饱和度，通过转换图像到HSV色彩空间，然后提取饱和度分量，进行统计和分析，以获得图像整体的饱和度。

7.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：将遮挡阴影面积Mj、背景复杂度Fz、目标设备抖动度Dd无量纲处理后，通过以下拟合公式生成第一环境条件系数HJ1：

8.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：并将第一环境条件系数HJ1与第一阈值Y1进行对比，获得第一评估结果；包括：

9.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：还包括，获取用户定位地区，匹配相对应定位地区的方言，在第一配置增强处理策略中添加方言翻译功能，提取字幕文本进行方言翻译，将翻译文本叠加在字幕文本的对应区域，但不遮挡原本字幕文本。

10.对视频图像中的字幕文本进行增强处理的系统，包括上述权利要求1~9所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：包括识别字幕文本模块、用户行为数据采集模块、用户偏好处理模块、环境数据采集模块、自适应处理匹配模块、切换模块和方言翻译功能模块；

...

【技术特征摘要】

1.对视频图像中的字幕文本进行增强处理的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述步骤一具体包括：s11、数据集准备，收集包含字幕区域或标注的视频数据集；

3.根据权利要求2所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述s13包括：s131、当初次检测到字幕区域时，将初始位置作为初始状态输入至卡尔曼滤波器；

4.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述步骤二包括：s21、收集用户在过去视频观看经历中对字幕外挂进行的调整行为数据，并以时间序列的方式记录，存储在用户行为数据库；所述调整行为数据包括用户调整字幕的大小、颜色、透明度和字幕滚动速度；

5.根据权利要求4所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述用户偏好向量系数xg获取的方式是：提取用户行为数据库中的字幕大小特征dx、字幕颜色特征ys、透明度特征tmd、对比度特征dbd和滚动速度特征sd，归一化处理后，通过以下公式计算获得用户偏好向量系数xg：

6.根据权利要求1所述的对视频图像中的字幕文本进行增强处理的方法，其特征在于：所述遮挡阴影面积mj通过lidar激光雷达传感器检测播放场景中的物体，识别遮挡阴影面积；所述背景复杂度fz通过识别图像中物体数量和纹...

【专利技术属性】
技术研发人员：张小灵，李晓磊，
申请(专利权)人：翔飞天津智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人