文本追踪模型训练方法、文本追踪方法、装置及电子设备制造方法及图纸

技术编号:39258006 阅读:10 留言:0更新日期:2023-10-30 12:09
本发明专利技术实施例提供的文本追踪模型训练方法、文本追踪方法、装置及电子设备,包括,获取多个视频;对每个视频进行抽帧处理,得到视频帧图像序列,将视频帧图像序列划分成多个视频帧图像子序列,从多个视频帧图像子序列中确定目标视频帧图像子序列;将多个目标视频帧图像子序列输入至神经网络模型中进行训练,得到文本追踪模型。本发明专利技术中由于目标视频帧图像子序列为具有相同文本且图像背景变化程度大的序列视频帧图像,因此,基于目标视频帧图像子序列对神经网络模型进行模型训练,使得神经网络模型在训练过程中不过多关注图像背景而是关注文本进行训练,以得到文本追踪模型,利用该文本追踪模型能够准确地对文本进行追踪,大大提升了文本追踪性能。提升了文本追踪性能。提升了文本追踪性能。

【技术实现步骤摘要】
文本追踪模型训练方法、文本追踪方法、装置及电子设备


[0001]本专利技术实施例涉及文本追踪
,尤其涉及一种文本追踪模型训练方法、文本追踪方法、装置及电子设备。

技术介绍

[0002]随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测等方面具有广泛的应用价值。
[0003]当前,视频运营商对于热门视频可通过文本追踪进行话题跟踪,由于文本追踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的语料,因此逐渐成为当前信息处理领域的研究热点。文本追踪以大规模视频流为研究对象,通过视频中文本描述的话题,发现新的用户感兴趣的信息,从而吸引新的用户观看视频,提高视频收视率。
[0004]与传统物体追踪不同,文本追踪区域存在着背景像素占比大于文字像素占比的情况,如果数据不加筛选,大量背景一致的训练数据,会导致文本追踪模型过多关注背景像素变化,从而导致文本追踪模型训练不佳,使得文本追踪性能过低。

技术实现思路

[0005]鉴于此,本专利技术实施例提供一种文本追踪模型训练方法、文本追踪方法、装置及电子设备,能够基于图像背景变化程度大且具有相同文本的序列视频帧图像对神经网络模型进行模型训练,使得神经网络模型在训练过程中不过多关注图像背景而是关注文本进行训练,以得到文本追踪模型,利用该文本追踪模型能够准确地对文本进行追踪,大大提升了文本追踪性能。
[0006]第一方面,本专利技术实施例提供一种文本追踪模型训练方法,其中,该方法包括:
[0007]获取多个视频;
[0008]针对每个视频均执行如下操作:对视频进行抽帧处理,得到视频帧图像序列,将视频帧图像序列划分成多个视频帧图像子序列,从多个视频帧图像子序列中确定目标视频帧图像子序列;其中,目标视频帧图像子序列为具有相同文本且图像背景变化程度大的序列视频帧图像,文本用文本框进行标注;
[0009]将多个目标视频帧图像子序列输入至神经网络模型中进行训练,直至训练周期达到预设训练周期或模型损失值达到预设损失阈值为止,得到文本追踪模型。
[0010]在一个可能的实施方式中,将视频帧图像序列划分成多个视频帧图像子序列,包括:
[0011]对视频帧图像序列进行文本识别检测;
[0012]判断视频帧图像序列中的视频帧图像是否包括文本;
[0013]在判断出视频帧图像序列中的视频帧图像包括文本的情况下,将文本相同的视频
帧图像进行合并,得到多个视频帧图像子序列;
[0014]在判断出视频帧图像序列中的视频帧图像不包括文本的情况下,将视频帧图像序列按照预设帧数进行划分,得到多个视频帧图像子序列。
[0015]在一个可能的实施方式中,从多个视频帧图像子序列中确定目标视频帧图像子序列,包括:
[0016]针对每个视频帧图像子序列,从视频帧图像子序列中抽选预设数量的第一视频帧图像,基于多个第一视频帧图像确定视频帧图像子序列的背景变化程度值;
[0017]基于多个背景变化程度值从多个视频帧图像子序列中确定目标视频帧图像子序列。
[0018]在一个可能的实施方式中,基于多个第一视频帧图像确定视频帧图像子序列的背景变化程度值,包括:
[0019]利用相似度算法确定多个第一视频帧图像中任意相邻的两个第一视频帧图像的相似度;
[0020]基于多个相似度确定背景变化程度值。
[0021]在一个可能的实施方式中,基于多个背景变化程度值从多个视频帧图像子序列中确定目标视频帧图像子序列,包括:
[0022]将低于预设程度值的背景变化程度值对应的视频帧图像子序列确定为目标视频帧图像子序列。
[0023]在一个可能的实施方式中,该方法还包括:
[0024]针对目标视频帧图像子序列中的目标视频帧图像不包括文本的情况下,将预置文本添加至目标视频帧图像中的预设位置。
[0025]在一个可能的实施方式中,对视频帧图像序列进行文本识别检测,包括:
[0026]通过预先训练好的文本识别检测模型对视频帧图像序列进行文本识别检测。
[0027]第二方面,本专利技术实施例提供一种文本追踪方法,其中,该方法包括:
[0028]获取待文本追踪视频;
[0029]对待文本追踪视频进行抽帧处理,得到待文本追踪视频帧图像序列;
[0030]从待文本追踪视频帧图像序列中对预设视频帧帧数间隔的待文本追踪视频帧图像进行待追踪文本的文本标定;
[0031]将文本标定后的待文本追踪视频帧图像序列输入文本追踪模型,文本追踪模型输出每帧标定有待追踪文本的文本框的待文本追踪视频帧图像序列;其中,文本追踪模型通过上述的文本追踪模型训练方法训练得到。
[0032]第三方面,本专利技术实施例提供一种文本追踪模型训练装置,其中,该装置包括:
[0033]第一获取模块,用于获取多个视频;
[0034]执行模块,用于针对每个视频均执行如下操作:对视频进行抽帧处理,得到视频帧图像序列,将视频帧图像序列划分成多个视频帧图像子序列,从多个视频帧图像子序列中确定目标视频帧图像子序列;其中,目标视频帧图像子序列为具有相同文本且图像背景变化程度大的序列视频帧图像,文本用文本框进行标注;
[0035]训练模块,用于将多个目标视频帧图像子序列输入至神经网络模型中进行训练,直至训练周期达到预设训练周期或模型损失值达到预设损失阈值为止,得到文本追踪模
型。
[0036]第四方面,本专利技术实施例提供一种文本追踪装置,其中,该装置包括:
[0037]第二获取模块,用于获取待文本追踪视频;
[0038]抽帧处理模块,用于对待文本追踪视频进行抽帧处理,得到待文本追踪视频帧图像序列;
[0039]文本标定模块,用于从待文本追踪视频帧图像序列中对预设视频帧帧数间隔的待文本追踪视频帧图像进行待追踪文本的文本标定;
[0040]文本追踪模块,用于将文本标定后的待文本追踪视频帧图像序列输入文本追踪模型,文本追踪模型输出每帧标定有待追踪文本的文本框的待文本追踪视频帧图像序列;其中,文本追踪模型通过上述的文本追踪模型训练方法训练得到。
[0041]第五方面,本专利技术实施例提供一种电子设备,其中,包括:处理器和存储器,处理器用于执行存储器中存储的文本追踪模型训练和文本追踪程序,以实现上述的文本追踪模型训练方法和上述的文本追踪方法。
[0042]第六方面,本专利技术实施例提供一种存储介质,其中,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述的文本追踪模型训练方法和上述的文本追踪方法。
[0043]本专利技术实施例提供的文本追踪模型训练方法、文本追踪方法、装置及电子设备,包括,获取多个视频;针对每个视频均执行如下操作:对视频进行抽帧处理,得到视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本追踪模型训练方法,其特征在于,所述方法包括:获取多个视频;针对每个所述视频均执行如下操作:对所述视频进行抽帧处理,得到视频帧图像序列,将所述视频帧图像序列划分成多个视频帧图像子序列,从多个所述视频帧图像子序列中确定目标视频帧图像子序列;其中,目标视频帧图像子序列为具有相同文本且图像背景变化程度大的序列视频帧图像,所述文本用文本框进行标注;将多个所述目标视频帧图像子序列输入至神经网络模型中进行训练,直至训练周期达到预设训练周期或模型损失值达到预设损失阈值为止,得到文本追踪模型。2.根据权利要求1所述的方法,其特征在于,所述将所述视频帧图像序列划分成多个视频帧图像子序列,包括:对所述视频帧图像序列进行文本识别检测;判断所述视频帧图像序列中的视频帧图像是否包括文本;在判断出所述视频帧图像序列中的视频帧图像包括文本的情况下,将文本相同的视频帧图像进行合并,得到多个视频帧图像子序列;在判断出所述视频帧图像序列中的视频帧图像不包括文本的情况下,将所述视频帧图像序列按照预设帧数进行划分,得到多个视频帧图像子序列。3.根据权利要求1所述的方法,其特征在于,所述从多个所述视频帧图像子序列中确定目标视频帧图像子序列,包括:针对每个所述视频帧图像子序列,从所述视频帧图像子序列中抽选预设数量的第一视频帧图像,基于多个第一视频帧图像确定所述视频帧图像子序列的背景变化程度值;基于多个所述背景变化程度值从多个所述视频帧图像子序列中确定目标视频帧图像子序列。4.根据权利要求3所述的方法,其特征在于,所述基于多个第一视频帧图像确定所述视频帧图像子序列的背景变化程度值,包括:利用相似度算法确定多个所述第一视频帧图像中任意相邻的两个所述第一视频帧图像的相似度;基于多个所述相似度确定背景变化程度值。5.根据权利要求3所述的方法,其特征在于,所述基于多个所述背景变化程度值从多个所述视频帧图像子序列中确定目标视频帧图像子序列,包括:将低于预设程度值的所述背景变化程度值对应的所述视频帧图像子序列确定为目标视频帧图像子序列。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对所述目标视频帧图像子序列中的目标视频帧图像不包括文本的情况下,将预置文本添加至所述目标视频帧图像中的预设位置。7.根据权利要求2所述的方法,其特征在于,所述对所述视频帧图像序列进行文本识别检测,包括:通过预先训练好的文本识别检测模型对所述视频帧图像序...

【专利技术属性】
技术研发人员:尹天舒
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1