样例三元组的获取方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:19480963 阅读:37 留言:0更新日期:2018-11-17 10:38
本发明专利技术揭示了样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组。

【技术实现步骤摘要】
样例三元组的获取方法、装置、计算机设备以及存储介质
本申请涉及到机器学习领域,特别是涉及到样例三元组的获取方法、装置、计算机设备以及存储介质。
技术介绍
现有的样例三元组的选择是从整个训练数据中筛选的,导致样例三元组的总数量严重膨胀,其总数量的数量级跟样例数量的数量级是一个三次方的比例关系,导致现有方法获取出的样例三元组需要分批输入到网络模型中进行模型训练,但由于将每一分批的样例三元组送入训练模型中进行模型训练时,都会更改训练模型参数,使得训练模型训练时的各分批次的训练模型参量不同,使得后批次进入训练模型的样例三元组与训练模型的当前参量产生不匹配,样例三元组的效用逐渐下降。因此,从批次数量中合理获取样例三元组成为亟待解决的问题。
技术实现思路
本申请的主要目的为提供一种样例三元组的获取方法,旨在解决现有样例三元组的获取方法导致样例三元组的数量过于庞大影响训练模型的训练过程。本申请提出一种样例三元组的获取方法,其特征在于,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元本文档来自技高网...

【技术保护点】
1.一种样例三元组的获取方法,其特征在于,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述...

【技术特征摘要】
1.一种样例三元组的获取方法,其特征在于,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。2.根据权利要求1所述的样例三元组的获取方法,其特征在于,所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:将训练数据拆分成包含指定数量样例的多个批次数据;将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述所有第一样例进行两两组合形成多个样例二元组,其中所述第一样例包含与其对应的矢量。3.根据权利要求1或2所述的样例三元组的获取方法,其特征在于,所述将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:将所述训练数据中的所述多个批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练。4.根据权利要求3所述的样例三元组的获取方法,其特征在于,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;所述将所述样例三元组训练集输入以TripletLoss为损失函数的二分类网络模型中进行模型训练的步骤,包括:将所述说话人的话语样例组成的样例三元组训练集输入以TripletLoss为损失函数的说话人确认网络模型中进行模型训练。5.根据权利要求4所述的样例三元组的获取方法,其特征在于,所述将所述说话人的话语样例组成的样例三元组训练集输入以TripletLoss为损失函数的说话人确认网络模型中...

【专利技术属性】
技术研发人员:赵峰王健宗肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1