样本权重分配方法、模型训练方法、电子设备及存储介质组成比例

技术编号：18351227 阅读：45 留言：0更新日期：2018-07-02 00:59

本发明专利技术提供一种样本权重分配方法，所述方法包括：获取训练样本，所述训练样本包括正样本集及负样本集；计算所述正样本集中每个正样本对的距离，及所述负样本集中每个负样本对的距离；根据所述正样本集中每个正样本对的距离，确定所述正样本集的距离分布；根据所述负样本集中每个负样本对的距离，确定所述负样本集的距离分布；基于所述正样本集的距离分布及所述负样本集的距离分布，确定所述训练样本的权重分布。本发明专利技术还提供一种模型训练方法、电子设备及存储介质。本发明专利技术能增加分类错误的样本对的权重，在模型训练过程中，增大所述分类错误的样本对目标损失的贡献，从而能更好地修正模型参数，提高模型参数的表达能力。

全部详细技术资料下载

【技术实现步骤摘要】
样本权重分配方法、模型训练方法、电子设备及存储介质
本专利技术涉及人工智能领域，尤其涉及一种样本权重分配方法、模型训练方法、电子设备及存储介质。
技术介绍
在机器学习领域，在模型(例如特征提取模型、人脸特征表达模型等)的训练中损失函数分为两类，第一类是基于分类的度量，由于不是直接对特征进行度量，性能有限；另外一类是直接面向特征度量的端到端的方法，此类方法由于需要挑选到难易程度合适的样本网络才能较好收敛。现有的方法主要通过以下两种方式获取难易程度合适的样本：第一、在模型训练到一定阶段后，根据模型的特征表达，选择一些难度适中的样本，这样的方式操作起来麻烦，并且随着模型的训练，所选择的样本的难以程度发生变化，原有的离线选择的样本不在具有代表性，无法充分表达后续添加的样本的特征。第二、在模型训练的过程中，根据每次训练的模型选择难度适中的样本，虽然这种方法选择的训练样本具有代表性，能有有效的提高模型的表达能力，但是需要的计算资源过大，在实际模型训练中难以实现。
技术实现思路
鉴于以上内容，有必要提供一种样本权重分配方法、模型训练方法、电子设备及存储介质，能增加分类错误的样本对的权重，在模型训练过程中，增大所述分类错误的样本对目标损失的贡献，从而能更好地修正模型参数，提高模型参数的表达能力。一种样本权重分配方法，所述方法包括：获取训练样本，所述训练样本包括正样本集及负样本集，所述正样本集包括正样本对及所述负样本集包括负样本对；计算所述正样本集中每个正样本对的距离，及所述负样本集中每个负样本对的距离；根据所述正样本集中每个正样本对的距离，确定所述正样本集的距离分布，所述正样...
样本权重分配方法、模型训练方法、电子设备及存储介质

【技术保护点】
1.一种样本权重分配方法，其特征在于，所述方法包括：获取训练样本，所述训练样本包括正样本集及负样本集，所述正样本集包括正样本对及所述负样本集包括负样本对；计算所述正样本集中每个正样本对的距离，及所述负样本集中每个负样本对的距离；根据所述正样本集中每个正样本对的距离，确定所述正样本集的距离分布，所述正样本集的距离分布表示正样本对出现频率与距离的关系；根据所述负样本集中每个负样本对的距离，确定所述负样本集的距离分布，所述负样本集的距离分布表示负样本对出现频率与距离的关系；基于所述正样本集的距离分布及所述负样本集的距离分布，确定所述训练样本的权重分布。

【技术特征摘要】
1.一种样本权重分配方法，其特征在于，所述方法包括：获取训练样本，所述训练样本包括正样本集及负样本集，所述正样本集包括正样本对及所述负样本集包括负样本对；计算所述正样本集中每个正样本对的距离，及所述负样本集中每个负样本对的距离；根据所述正样本集中每个正样本对的距离，确定所述正样本集的距离分布，所述正样本集的距离分布表示正样本对出现频率与距离的关系；根据所述负样本集中每个负样本对的距离，确定所述负样本集的距离分布，所述负样本集的距离分布表示负样本对出现频率与距离的关系；基于所述正样本集的距离分布及所述负样本集的距离分布，确定所述训练样本的权重分布。2.如权利要求1所述的样本权重分配方法，其特征在于，所述基于所述正样本集的距离分布及所述负样本集的距离分布，确定所述训练样本的权重分布包括：基于所述正样本集的距离分布及所述负样本集的距离分布，确定分类错误的第一样本集；在所述训练样本的权重分布中，增加所述第一样本集中每个样本对的权重；及/或基于所述正样本集的距离分布及所述负样本集的距离分布，确定分类正确的第二样本集；在所述训练样本的权重分布中，减少所述第二样本集中每个样本对的权重。3.如权利要求1所述的样本权重分配方法，其特征在于，所述训练样本的权重分布为正态分布，当所述正样本集中正样本对的最大距离小于或等于所述负样本集中负样本对的最小距离时，在确定所述训练样本的权重分布时，所述方法还包括：将所述最大距离与所述最小距离的均值确定为所述训练样本的权重分布的均值。4.如权利要求1所述的样本权重分配方法，其特征在于，所述训练样本的权重分布为正态分布，当所述正样本集中正样本对的最大距离大于所述负样本集中负样本对的最小距离时，在确定所述训练样本的权重分布时，所述方法还包括：将所述正样本集的距离分布与所述负样本集的距离分布的交叉点对应的距离值作为所述训练样本的权重...

【专利技术属性】
技术研发人员：严蕤，牟永强，
申请(专利权)人：深圳云天励飞技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人