注视点位置预测模型预训练方法以及超分模型预训练方法技术

技术编号:39728091 阅读:11 留言:0更新日期:2023-12-17 23:32
本申请提供了一种注视点位置预测模型预训练方法以及超分模型预训练方法,注视点位置预测模型预训练方法包括:获取多个第一样本图像,确定每个第一样本图像上的各个图像块的第一比值,第一比值是每个图像块中注视点位置的数量与所在第一样本图像中注视点位置的总数量的比值;对每个第一样本图像的多个第一比值从大到小进行排序,得到比值序列;从比值序列中获取每个第一样本图像的多个第二比值;获取每个第一样本图像的多个第一标签;基于多个第一样本图像以及每个第一样本图像的多个第一标签,对注视点位置预测模型进行预训练

【技术实现步骤摘要】
注视点位置预测模型预训练方法以及超分模型预训练方法


[0001]本申请涉及图像处理
,特别涉及一种注视点位置预测模型预训练方法以及超分模型预训练方法


技术介绍

[0002]随着神经网络训练技术的不断成熟以及显卡计算能力的不断提升,其应用范围也在不断扩大,特别是在图像处理领域尤为突出,包括图像处理

图像识别和图像生成等

例如,基于注视点位置预测模型对图像进行识别,以确定用户对图像中感兴趣的图像块

[0003]相关技术中,为了可以实现基于注视点位置预测模型对图像进行识别,基于随机获取的大量的训练数据对注视点位置预测模型进行训练

[0004]但是,上述的模型训练方法,通过随机选取的方式确定训练数据,导致训练数据没有针对性,进而使得注视点位置预测模型的训练时间长,且注视点位置预测模型的精度也较差


技术实现思路

[0005]本申请实施例提供了一种注视点位置预测模型预训练方法以及超分模型预训练方法,能够得到针对特定任务的有效的训练数据,进而缩短了注视点位置预测模型的预训练时间,提高了注视点位置预测模型的精度

该技术方案如下:
[0006]根据本申请实施例的第一方面,提供了一种注视点位置预测模型预训练方法,该方法包括:
[0007]获取多个第一样本图像,确定每个该第一样本图像上的各个图像块的第一比值,该第一比值是每个该图像块中注视点位置的数量与所在第一样本图像中注视点位置的总数量的比值;
[0008]对每个该第一样本图像的多个该第一比值从大到小进行排序,得到比值序列;
[0009]从该比值序列中获取每个该第一样本图像的多个第二比值,多个该第二比值位于该比值序列中的前预设数量位;
[0010]获取每个该第一样本图像的多个第一标签,该第一标签包括第一注视图像块的坐标以及该第一注视图像块的该第二比值,该第一注视图像块用于指示与该第二比值对应的该图像块;
[0011]基于多个该第一样本图像以及每个该第一样本图像的多个该第一标签,对注视点位置预测模型进行预训练

[0012]在一种可能的实现方式中,该基于多个该第一样本图像以及每个该第一样本图像的多个该第一标签,对注视点位置预测模型进行预训练,包括:
[0013]在第
i
次迭代过程中,通过该注视点位置预测模型对第
i
个第一样本图像进行注视点位置预测,得到第
i
个该第一样本图像的多个第二标签,该第二标签包括多个第二注视图像块的坐标以及该第二注视图像块的第三比值,该第三比值用于指示该第二注视图像块中
的注视点位置的数量,
i
为大于1或等于1的整数;
[0014]获取第
i
个误差值,该第
i
个误差值用于指示每个该第一注视图像块与坐标相同的该第二注视图像块的比值差;
[0015]当该第
i
次迭代过程满足预设条件,停止预训练

[0016]在一种可能的实现方式中,该获取第
i
个误差值,包括:
[0017]分别确定与每个该第一标签中坐标相同的该第二标签;
[0018]获取多个第一差值,该第一差值用于指示对应相同坐标的该第二比值与该第三比值的差值,以及获取多个第二差值,该第二差值用于指示不存在对应相同坐标的该第三比值的该第二比值;
[0019]对多个该差值进行求和计算,得到第
i
个该误差值

[0020]在一种可能的实现方式中,在该基于多个该第一样本图像以及每个该第一样本图像的多个该第一标签,对注视点位置预测模型进行预训练之后,该方法还包括:
[0021]获取多个由相机组对同一个目标进行采集的图像组,每个该图像组包括左眼图像

右眼图像以及深度图像;
[0022]针对每个该图像组,根据该图像组中的深度图像,对该图像组中的左眼图像和右眼图像进行处理,得到样本左眼图像和样本右眼图像;
[0023]将每个该图像组对应的样本左眼图像和样本右眼图像组成训练集,基于该训练集,对该注视点位置预测模型进行调整

[0024]在一种可能的实现方式中,该针对每个该图像组,根据该图像组中的深度图像,对该图像组中的左眼图像和右眼图像进行处理,得到样本左眼图像和样本右眼图像包括:
[0025]针对每个该图像组,根据该图像组中的深度图像,确定该深度图像中左眼的注视点位置以及右眼的注视点位置;
[0026]根据该深度图像中左眼的注视点位置以及右眼的注视点位置,分别对该图像组的左眼图像和右眼图像进行处理,得到该图像组的左眼中间图像和右眼中间图像;
[0027]对该图像组的左眼中间图像和右眼中间图像进行上采样,得到该图像组的样本左眼图像和样本右眼图像

[0028]根据本申请实施例的第二方面,提供了一种超分模型的预训练方法,该方法包括:
[0029]获取多个第二样本图像,基于注视点位置预测模型,得到每个该第二样本图像的目标注视图像块,其中,每个该第二样本图像包括多个图像块,该目标注视图像块为所在第二样本图像中包括注视点位置的数量最多的图像块;
[0030]基于每个该目标注视图像块,分别对对应的该第二样本图像进行裁剪,得到多个第一样本子图像,每个该第一样本子图像包括该目标注视图像块,该第一样本子图像的尺寸小于该第二样本图像的尺寸;
[0031]基于多个该第一样本子图像生成训练数据集;
[0032]基于该训练数据集,对超分模型进行预训练

[0033]在一种可能的实现方式中,该基于注视点位置预测模型,得到每个该第二样本图像的目标注视图像块,包括:
[0034]基于该注视点位置预测模型对每个该第二样本图像进行注视点位置预测,得到每个该第二样本图像的多个标签,每个该标签包括注视图像块的坐标以及该注视图像块的比
值,该比值为每个该注视图像块中注视点位置的数量与所在该第二样本图像中注视点位置的总数量的比值,该注视图像块为比值序列中前预设数量位对应的图像块,该比值序列为各个比值从小到大进行排列的序列;
[0035]获取每个该第二样本图像的目标比值,该目标比值为该比值序列中最大的比值;
[0036]将该目标比值对应的该注视图像块作为该目标注视图像块

[0037]在一种可能的实现方式中,该基于每个该目标注视图像块分别对对应的该第二样本图像进行裁剪,得到多个第一样本子图像,包括:
[0038]以每个该目标注视图像块为中心,根据预设边长分别从对应的该第二样本图像中裁剪出该第一样本子图像,将剩余部分输出为第二样本子图像

[0039]在一种可能的实现方式中,该基于多个该第一样本子图像生成训练数据集,包括:...

【技术保护点】

【技术特征摘要】
1.
一种注视点位置预测模型的预训练方法,其特征在于,包括:获取多个第一样本图像,确定每个所述第一样本图像上的各个图像块的第一比值,所述第一比值是每个所述图像块中注视点位置的数量与所在第一样本图像中注视点位置的总数量的比值;对每个所述第一样本图像的多个所述第一比值从大到小进行排序,得到比值序列;从所述比值序列中获取每个所述第一样本图像的多个第二比值,多个所述第二比值位于所述比值序列中的前预设数量位;获取每个所述第一样本图像的多个第一标签,所述第一标签包括第一注视图像块的坐标以及所述第一注视图像块的所述第二比值,所述第一注视图像块用于指示与所述第二比值对应的所述图像块;基于多个所述第一样本图像以及每个所述第一样本图像的多个所述第一标签,对注视点位置预测模型进行预训练
。2.
根据权利要求1所述的方法,其特征在于,所述基于多个所述第一样本图像以及每个所述第一样本图像的多个所述第一标签,对注视点位置预测模型进行预训练,包括:在第
i
次迭代过程中,通过所述注视点位置预测模型对第
i
个第一样本图像进行注视点位置预测,得到第
i
个所述第一样本图像的多个第二标签,所述第二标签包括多个第二注视图像块的坐标以及所述第二注视图像块的第三比值,所述第三比值用于指示所述第二注视图像块中的注视点位置的数量,
i
为大于1或等于1的整数;获取第
i
个误差值,所述第
i
个误差值用于指示每个所述第一注视图像块与坐标相同的所述第二注视图像块的比值差;当所述第
i
次迭代过程满足预设条件,停止预训练
。3.
根据权利要求2所述的方法,其特征在于,所述获取第
i
个误差值,包括:分别确定与每个所述第一标签中坐标相同的所述第二标签;获取多个第一差值,所述第一差值用于指示对应相同坐标的所述第二比值与所述第三比值的差值,以及获取多个第二差值,所述第二差值用于指示不存在对应相同坐标的所述第三比值的所述第二比值;对多个所述差值进行求和计算,得到第
i
个所述误差值
。4.
根据权利要求1所述的方法,其特征在于,在所述基于多个所述第一样本图像以及每个所述第一样本图像的多个所述第一标签,对注视点位置预测模型进行预训练之后,所述方法还包括:获取多个由相机组对同一个目标进行采集的图像组,每个所述图像组包括左眼图像

右眼图像以及深度图像;针对每个所述图像组,根据所述图像组中的深度图像,对所述图像组中的左眼图像和右眼图像进行处理,得到样本左眼图像和样本右眼图像;将每个所述图像组对应的样本左眼图像和样本右眼图像组成训练集,基于所述训练集,对所述注视点位置预测模型进行调整
。5.
根据权利要求4所述的方法,其特征在于,所述针对每个所述图像组,根据所述图像组中的深度图像,对所述图像组中的左眼图像和右眼图像进行处理,得到样本左眼图像和样本右眼图像包括:
针对每个所述图像组,根据所述图像组中的深度图像,确定所述深度图像中左眼的注视点位置以及右眼的注视点位置;根据所述深度图像中左眼的注视点位置以及右眼的注视点位置,分别对所述图像组的左眼图像和右眼图像进行处理,得到所述图像组的左眼中间图像和右眼中间图像;对所述图像组的左眼中间图像和右眼中间图像进行上采样,得到所述图像组的样本左眼图像和样本右眼图像
。6.
一种超分模型的预训练方法,其特征在于,包括:获取多个第二样本图像,基于注视点位置预测模型,得到每个所述第二样本图像的目标注视图像块,其中,每个所述第二样本图像包括多个图像块,所述目标注视图像块为所在第二样本图像中包括注视点位置的数量最多的图像块;基于每个所述目标注视图像块,分别对对应的所述第二样本图像进行裁剪,得到多个第一样本子图像,每个所述第一样本子图像包括所述目标注视图像块,所述第一样本子图像的尺寸小于所述第二样本图像的尺寸;基于多个所述第一样本子图像生成训练数据集;基于所述训练数据集,对超分模型进行预训练
。7.
根据权利要求6所述的方法,其特征在于,所述基于注视点位置预测模型,得到每个所述第二样本图像的目标注视图像块,包括:基于所述注视点位置预测模型对每个所述第二样本图像进行注视点位置预测,得到每个所述第二样本图像的多个标签,每个所述标签包括注视图像块的坐标以及所述注视图像块的比值,所述比值为每个所述注视图像块中注视点位置的数量与所在所述第二样本图像中注视点位置的总数量的比值,所述注视图像块为比值序列中前预设数量位对应的图像块,所述比值序列为各个比值从小到大进行排列的序列;获取每个所述第二样本图像的目标比值,所述目标比值为所述比值序列中最大的比值;将所述目标比值对应的所述注视图像块作为所述目标注视图像块
。8.
根据权利要求6所述的方法,其特征在于,所述基于每个所述目标注视图像块分别对对应的所述第二样本图像进行裁剪,得到多个第一样本子图像,包括:以每个所述目标注视图像块为中心,根据预设边长分别从对应的所述第二样本图像中裁剪出所述第一样本子图像,将剩余部分输出为第二样本子图像
。9.
根据权利要求6所述的方法,其特征在于,所述基于多个所述第一样本子图像生成训练数据集,包括:对每个所述第一样本子图像分别进行下采样,得到多个下采样图像;对每个所述下采样图像分别进行上采样,得到所述训练数据集包括的多个上采样图像,所述上采样图像与对应的所述第一样本子图像的分辨率以及尺寸相同
。10.
根据权利要求6所述的方法,其特征在于,所述基于所述训练数据集对超分模型进行预训练,包括:在第
k
次迭代过程中,将第
k
个所述第一样本子图像输入至所述超分模型,输出第
k
个第一超分子图像,将第
k
个所述第一样本子图像输入至预设监督模型,输出第
k
个第二超分子图像,获取第
k
个第一损失值以及第
k
个第二损失值,第
k
个所述第一损失值用于指示第
k

所述第一超分子图像与第
k
个所述第二超分子图像的信息差,第
k
个所述第二损失值用于指示第
k
个所述第二超分子图像与所述第
k
个所述第一样本子图像的信息差,
k
为大于1或等于1的整数,基于所述第
k
个所述第一损失值以及第
k
个所述第二损失值,确定损失值和值;基于所述损失值和值,对所述超分模型的模型参数进行调整
。11.
根据权利要求
10
所述的方法,其特征在于,所述基于所述训练数据集对超分模型进行预训练,还包括:在第
k
次迭代过程中,获取第
k
个第...

【专利技术属性】
技术研发人员:李治富苗京花李文宇
申请(专利权)人:北京京东方显示技术有限公司北京京东方技术开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1