文本追踪模型训练方法、文本追踪方法、装置及电子设备制造方法及图纸

技术编号：39258006 阅读：10 留言：0更新日期：2023-10-30 12:09

本发明专利技术实施例提供的文本追踪模型训练方法、文本追踪方法、装置及电子设备，包括，获取多个视频；对每个视频进行抽帧处理，得到视频帧图像序列，将视频帧图像序列划分成多个视频帧图像子序列，从多个视频帧图像子序列中确定目标视频帧图像子序列；将多个目标视频帧图像子序列输入至神经网络模型中进行训练，得到文本追踪模型。本发明专利技术中由于目标视频帧图像子序列为具有相同文本且图像背景变化程度大的序列视频帧图像，因此，基于目标视频帧图像子序列对神经网络模型进行模型训练，使得神经网络模型在训练过程中不过多关注图像背景而是关注文本进行训练，以得到文本追踪模型，利用该文本追踪模型能够准确地对文本进行追踪，大大提升了文本追踪性能。提升了文本追踪性能。提升了文本追踪性能。

全部详细技术资料下载

【技术实现步骤摘要】
文本追踪模型训练方法、文本追踪方法、装置及电子设备

[0001]本专利技术实施例涉及文本追踪
，尤其涉及一种文本追踪模型训练方法、文本追踪方法、装置及电子设备。

技术介绍

[0002]随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测等方面具有广泛的应用价值。
[0003]当前，视频运营商对于热门视频可通过文本追踪进行话题跟踪，由于文本追踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性，并面向具备突发性和延续性规律的语料，因此逐渐成为当前信息处理领域的研究热点。文本追踪以大规模视频流为研究对象，通过视频中文本描述的话题，发现新的用户感兴趣的信息，从而吸引新的用户观看视频，提高视频收视率。
[0004]与传统物体追踪不同，文本追踪区域存在着背景像素占比大于文字像素占比的情况，如果数据不加筛选，大量背景一致的训练数据，会导致文本追踪模型过多关注背景像素变化，从而导致文本追踪模型训练不佳，使得文本追踪性能过低。

技术实现思路

[0005]鉴于此，本专利技术实施例提供一种文本追踪模型训练方法、文本追踪方法、装置及电子设备，能够基于图像背景变化程度大且具有相同文本的序列视频帧图像对神经网络模型进行模型训练，使得神经网络模型在训练过程中不过多关注图像背景而是关注文本进行训练，以得到文本追踪模型，利用该文本追踪模型能够准确地对文本进行追踪，大大提升了文本...

【技术保护点】

【技术特征摘要】
1.一种文本追踪模型训练方法，其特征在于，所述方法包括：获取多个视频；针对每个所述视频均执行如下操作：对所述视频进行抽帧处理，得到视频帧图像序列，将所述视频帧图像序列划分成多个视频帧图像子序列，从多个所述视频帧图像子序列中确定目标视频帧图像子序列；其中，目标视频帧图像子序列为具有相同文本且图像背景变化程度大的序列视频帧图像，所述文本用文本框进行标注；将多个所述目标视频帧图像子序列输入至神经网络模型中进行训练，直至训练周期达到预设训练周期或模型损失值达到预设损失阈值为止，得到文本追踪模型。2.根据权利要求1所述的方法，其特征在于，所述将所述视频帧图像序列划分成多个视频帧图像子序列，包括：对所述视频帧图像序列进行文本识别检测；判断所述视频帧图像序列中的视频帧图像是否包括文本；在判断出所述视频帧图像序列中的视频帧图像包括文本的情况下，将文本相同的视频帧图像进行合并，得到多个视频帧图像子序列；在判断出所述视频帧图像序列中的视频帧图像不包括文本的情况下，将所述视频帧图像序列按照预设帧数进行划分，得到多个视频帧图像子序列。3.根据权利要求1所述的方法，其特征在于，所述从多个所述视频帧图像子序列中确定目标视频帧图像子序列，包括：针对每个所述视频帧图像子序列，从所述视频帧图像子序列中抽选预设数量的第一视频帧图像，基于多个第一视频帧图像确定所述视频帧图像子序列的背景变化程度值；基于多个所述背景变化程度值从多个所述视频帧图像子序列中确定目标视频帧图像子序列。4.根据权利要求3所述的方法，其特征在于，所述基于多个第一视频帧图像确定所述视频帧图像子序列的背景变化程度值，包括：利用相似度算法确定多个所述第一视频帧图像中任意相邻的两个所述第一视频帧图像的相似度；基于多个所述相似度确定背景变化程度值。5.根据权利要求3所述的方法，其特征在于，所述基于多个所述背景变化程度值从多个所述视频帧图像子序列中确定目标视频帧图像子序列，包括：将低于预设程度值的所述背景变化程度值对应的所述视频帧图像子序列确定为目标视频帧图像子序列。6.根据权利要求2所述的方法，其特征在于，所述方法还包括：针对所述目标视频帧图像子序列中的目标视频帧图像不包括文本的情况下，将预置文本添加至所述目标视频帧图像中的预设位置。7.根据权利要求2所述的方法，其特征在于，所述对所述视频帧图像序列进行文本识别检测，包括：通过预先训练好的文本识别检测模型对所述视频帧图像序...

【专利技术属性】
技术研发人员：尹天舒，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人