模型训练方法技术

技术编号:39746957 阅读:9 留言:0更新日期:2023-12-17 23:45
本申请提供一种模型训练方法

【技术实现步骤摘要】
模型训练方法、特征提取方法及装置


[0001]本申请涉及机器学习
,尤其涉及一种模型训练方法

特征提取方法及装置


技术介绍

[0002]目前,在机器学习领域中,有监督训练是一种常用的训练方法,在图像处理

语言模型等领域广泛使用

[0003]但是,许多场景和领域中的有标签数据较为稀少,而标注数据的成本较高,难以训练出有效深度学习算法模型

[0004]例如,对于机器视觉学习领域,往往难以获取到有标签的图像,对图像进行人工标注的成本也较高,难以训练出有效的机器视觉模型


技术实现思路

[0005]有鉴于此,本申请提供一种模型训练方法

特征提取方法及装置,以解决上述问题

[0006]根据本申请实施例的第一方面,提供一种模型训练方法,所述方法包括:
[0007]从所述视频流中提取至少两个视频帧,若提取的至少两个视频帧满足设定的帧关系条件,则将提取的所述至少两个视频帧确定为正样本图片;若提取的至少两个视频帧不满足设定的帧关系条件,则将提取的所述至少两个视频帧确定为负样本图片;
[0008]将所述正样本图片和
/
或所述负样本图片输入至机器视觉学习模型,以由所述机器视觉学习模型中的编码器对输入的正样本图片和
/
或负样本图片进行编码得到特征编码并输出给所述机器视觉学习模型中的帧间关系预测器,以由所述帧间关系预测器根据输入的特征编码预测出所述正样本图片和
/
或负样本图片中至少两个视频帧之间的帧关系;
[0009]根据所述正样本图片和
/
或所述负样本图片中至少两个视频帧之间的帧关系

所述帧间关系预测器预测出的至少两个视频帧之间的帧关系对所述机器视觉学习模型的模型参数进行调整得到第二目标模型,所述第二目标模型用于预测两个以上视频帧之间的帧关系

[0010]根据本申请实施例的第二方面,提供另一种模型训练方法,所述方法包括:
[0011]从视频流中提取至少两个视频帧,并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片;
[0012]将所述训练图片输入至机器视觉学习模型,以由机器视觉学习模型中的编码器对输入的训练图片中每一视频帧进行编码得到特征编码并输出给机器视觉学习模型中的解码器和帧间关系预测器,以由解码器根据输入的每一视频帧的特征编码重构出每一视频帧中被遮挡的内容,并由帧间关系预测器根据输入的每一视频帧的特征编码预测出训练图片中各视频帧之间的帧关系预测结果;
[0013]根据帧关系预测结果

训练图片中各视频帧之间的帧关系

各视频帧中设定的部
分内容和解码器重构出的各视频帧中被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型,所述第一目标模型用于提取待识别图像的图像特征,还用于预测两个以上视频帧之间的帧关系

[0014]根据本申请实施例的第三方面,提供一种特征提取方法,所述方法包括:
[0015]将待识别图像输入至按照本申请任一实施例提供的模型训练方法训练出的第一目标模型,得到所述待识别图像的图像特征,所述待识别图像的图像特征用于训练机器视觉识别模型

[0016]根据本申请实施例的第四方面,提供一种模型训练装置,所述装置包括:
[0017]提取模块,用于从视频流中提取原始图片,并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片;
[0018]第一输入模块,用于将所述训练图片输入至机器视觉学习模型,以由所述机器视觉学习模型中的编码器对输入的训练图片进行编码得到特征编码并输出给所述机器视觉学习模型中的解码器,以由所述解码器根据输入的特征编码重构出所述训练图片中被遮挡的内容;
[0019]训练模块,用于根据所述设定的部分内容和所述解码器重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型,所述第一目标模型用于提取待识别图像的图像特征

[0020]根据本申请实施例的第五方面,提供一种特征提取装置,所述装置包括:
[0021]特征识别模块,用于将待识别图像输入至按照本申请任一实施例提供的模型训练方法训练出的第一目标模型,得到所述待识别图像的图像特征,所述待识别图像的图像特征用于训练机器视觉识别模型

[0022]根据本申请实施例的第五方面,提供一种电子设备,所述设备包括可读存储介质和处理器;
[0023]其中,所述可读存储介质,用于存储机器可执行指令;
[0024]所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现本申请任一实施例提供的所述模型训练方法或特征提取方法的步骤

[0025]应用本申请实施例,可以通过重构图像的一部分或者预测下一帧来进行无监督训练,有效地训练出一个编码器作为其他任务的特征提取器,从而可以节约标注数据的成本

附图说明
[0026]图1为本申请一示例性实施例提供的一种机器视觉学习模型的结构示意图;
[0027]图2为本申请一示例性实施例提供的另一种机器视觉学习模型的结构示意图;
[0028]图3为本申请一示例性实施例提供的又一种机器视觉学习模型的结构示意图;
[0029]图4为本申请一示例性实施例提供的一种模型训练方法的实施例流程图;
[0030]图5为图4所示流程的场景性示例说明;
[0031]图6为本申请一示例性实施例提供的一种步骤
403
的实现流程;
[0032]图7为本申请一示例性实施例提供的另一种模型训练方法的实施例流程图;
[0033]图8为本申请一示例性实施例提供的一种步骤
703
的实现流程;
[0034]图9为本申请一示例性实施例提供的又一种模型训练方法的实施例流程图;
[0035]图
10
为本申请一示例性实施例提供的一种步骤
903
的实现流程;
[0036]图
11
为本申请一示例性实施例提供的一种步骤
1003
的实现流程;
[0037]图
12
为本申请一示例性实施例提供的模型训练装置的实施例框图;
[0038]图
13
为本申请一示例性实施例提供的特征提取装置的实施例框图;
[0039]图
14
为本申请根据一示例性实施例示出的一种电子设备的硬件结构图

具体实施方式
[0040]这里将详细地对示例性实施例进行说明,其示例表示在附图中

下面的描述涉及附图时,除非另有表示,不同附图中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种模型训练方法,其特征在于,所述方法包括:从视频流中提取至少两个视频帧,若提取的至少两个视频帧满足设定的帧关系条件,则将提取的所述至少两个视频帧确定为正样本图片;若提取的至少两个视频帧不满足设定的帧关系条件,则将提取的所述至少两个视频帧确定为负样本图片;将所述正样本图片和
/
或所述负样本图片输入至机器视觉学习模型,以由所述机器视觉学习模型中的编码器对输入的正样本图片和
/
或负样本图片进行编码得到特征编码并输出给所述机器视觉学习模型中的帧间关系预测器,以由所述帧间关系预测器根据输入的特征编码预测出所述正样本图片和
/
或负样本图片中至少两个视频帧之间的帧关系;根据所述正样本图片和
/
或所述负样本图片中至少两个视频帧之间的帧关系

所述帧间关系预测器预测出的至少两个视频帧之间的帧关系对所述机器视觉学习模型的模型参数进行调整得到第二目标模型,所述第二目标模型用于预测两个以上视频帧之间的帧关系
。2.
根据权利要求1所述的方法,其特征在于,所述根据正样本图片和
/
或负样本图片中至少两个视频帧之间的帧关系

所述帧间关系预测器预测出的至少两个视频帧之间的帧关系对所述机器视觉学习模型的模型参数进行调整得到第二目标模型,包括:根据正样本图片和
/
或负样本图片中至少两个视频帧之间的帧关系

所述帧间关系预测器预测出的至少两个视频帧之间的帧关系确定第二损失函数;根据所述第二损失函数对所述机器视觉学习模型的模型参数进行调整,并检查所述第二损失函数是否满足设定的训练停止条件;如果是,确定调整后的机器视觉学习模型为所述第二目标模型,如果否,获取正样本图片和
/
或负样本图片并返回将正样本图片和
/
或负样本图片输入至所述机器视觉学习模型的步骤
。3.
根据权利要求2所述的方法,其特征在于,所述设定的训练停止条件包括:本次训练过程中确定出的损失函数的值与上一次训练过程中确定出的损失函数的值之间的差值不超过设定阈值
。4.
根据权利要求1所述的方法,其特征在于,所述设定的帧关系条件包括:至少两个视频帧在视频流中的排列顺序连续
。5.
根据权利要求1所述的方法,其特征在于,所述第二损失函数用于衡量机器视觉学习模型中帧间关系预测器的帧关系预测性能
。6.
一种模型训练方法,其特征在于,所述方法包括:从视频流中提取至少两个视频帧,并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片;将所述训练图片输入至机器视觉学习模型,以由机器视觉学习模型中的编码器对输入的训练图片中每一视频帧进行编码得到特征编码并输出给机器视觉学习模型中的解码器和帧间关系预测器,以由解码器根据输入的每一视频帧的特征编码重构出每一视频帧中被遮挡的内容,并由帧间关系预测器根据输入的每一视频帧的特征编码预测出训练图片中各视频帧之间的帧关系预测结果;根据帧关系预测结果

...

【专利技术属性】
技术研发人员:祝勇义
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1