标签数据的生成方法和装置制造方法及图纸

技术编号:24517864 阅读:13 留言:0更新日期:2020-06-17 06:53
本申请公开了一种标签数据的生成方法和装置,包括:当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;触发所述用户从所选择的所有图片中选择出属于所述对象的图片;根据所述用户的选择结果,为所述未标记图片标记标签。采用本发明专利技术,可以增加标签数据的真实性以及标签的正确性,有利于机器学习模型训练的准确性,且效率高、实现成本低。

【技术实现步骤摘要】
标签数据的生成方法和装置
本专利技术涉及计算机应用技术,特别是涉及一种标签数据的生成方法和装置。
技术介绍
在海量数据时代,深度学习为人工智能带来了新的机会。这些机会集中在三个地方:文本、图片和语音识别。传统的机器学习算法,数据增长到一定体量,算法效果会遇到瓶颈。但如果运用新的深度学习算法,随着数据的增长,算法的效果可以持续提升。Google的研究人员用3亿张图的内部数据集做了实验,然后写了篇论文。他们指出,在深度模型中,视觉任务性能随训练数据量(取对数)的增加,线性上升。所以训练数据的数量对计算机视觉任务(图片分类、目标检测、图片风格迁移等)的效果影响比较大。目前,获取带标签的训练图片数据的主要方式有两种,一种是人工标记的方式,另一种是数据扩充的方式。其中,人工标记的方式主要是通过人工对图片进行标记标签,形成训练数据集。数据扩充的方式主要是在人工标记的图片的基础上进行镜像翻转(Mirroring)、随机剪裁(RandomCropping)、色彩转换(Colorshifting)等操作来扩充原有数据集。在实现本专利技术过程中,专利技术人发现上述现有的标签标记方案至少存在如下问题:人工标记图片的方式需要消耗大量的人力,一方面成本较高,另一方面出于成本的控制无法采用对每张图片综合多人标记结果的方式来降低个体对图片的标记错误率,从而使得标记数据集的标签存在一定的错误。而对于数据扩充的方式,虽然能够增加训练图片数量,且不需要人工参与,但是由于是对人工标记的图片的变形结果,并不能准确地描述图片所属对象的真实形态,因此,利用数据扩充后得到的训练数据训练机器学习模型会影响训练结果的准确性。由此可见,现有的标签数据生成方案存在成本高、标签错误或影响训练准确性的问题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种标签数据的生成方法和装置,可以增加标签数据的真实性以及标签的正确性,有利于机器学习模型训练的准确性,且实现成本低。为了达到上述目的,本专利技术实施例提出的技术方案为:一种标签数据的生成方法,包括:当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;触发所述用户从所选择的所有图片中选择出属于所述对象的图片;根据所述用户的选择结果,为所述未标记图片标记标签。较佳地,触发所述用户从所选择的所有图片中选择出属于所述对象的图片包括:触发在所述用户的终端设备上显示待选图片和一张示例图片,并通知所述用户从所述待选图片中选择出与所述示例图片具有相同内容的所有图片,其中,所述待选图片包括所述第一数量张具有正标签的图片、所述第二数量张具有负标签的图片和所述未标记图片,所述示例图片为具有所述对象内容的图片。较佳地,根据所述用户的选择结果,为所述未标记图片标记标签包括:根据所述用户的选择结果,对所述用户进行身份验证;当所述身份验证成功时,判断所述用户是否选择了所述未标记图片;如果是,则为所述未标记图片增加一条正记录,否则为所述未标记图片增加一条负记录;当所述未标记图片的记录总数量达到预设的次数阈值时,如果所述未标记图片的正记录数量与所述记录总数量的比值大于预设的概率阈值,则将所述未标记图片标记为正标签后,将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中;如果所述未标记图片的负记录数量与所述记录总数量的比值大于所述概率阈值,则将所述未标记图片标记为负标签后,将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中。较佳地,所述根据所述用户的选择结果,对所述用户进行身份验证包括:如果所述用户选择的图片中包含了所述第一数量张具有正标签的图片,且不包含所述第二数量张具有负标签的图片中的任一图片,则所述用户的身份验证成功;否则,所述用户的身份验证失败。较佳地,所述需要对用户进行身份验证包括:所述用户注册或登录网站时。一种标签数据的生成装置,包括:第一模块,用于当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;第二模块,用于触发所述用户从所选择的所有图片中选择出属于所述对象的图片;标记模块,用于根据所述用户的选择结果,为所述未标记图片标记标签。较佳地,第二模块,用于触发在所述用户的终端设备上显示待选图片和一张示例图片,并通知所述用户从所述待选图片中选择出与所述示例图片具有相同内容的所有图片,其中,所述待选图片包括所述第一数量张具有正标签的图片、所述第二数量张具有负标签的图片和所述未标记图片,所述示例图片为具有所述对象内容的图片。较佳地,所述标记模块,用于根据所述用户的选择结果,对所述用户进行身份验证;当所述身份验证成功时,判断所述用户是否选择了所述未标记图片;如果是,则为所述未标记图片增加一条正记录,否则为所述未标记图片增加一条负记录;当所述未标记图片的记录总数量达到预设的次数阈值时,如果所述未标记图片的正记录数量与所述记录总数量的比值大于预设的概率阈值,则将所述未标记图片标记为正标签后,将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中;如果所述未标记图片的负记录数量与所述记录总数量的比值大于所述概率阈值,则将所述未标记图片标记为负标签后,将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中。较佳地,所述标记模块,用于如果所述用户选择的图片中包含了所述第一数量张具有正标签的图片,且不包含所述第二数量张具有负标签的图片中的任一图片,则确定所述用户的身份验证成功;否则,确定所述用户的身份验证失败。较佳地,所述需要对用户进行身份验证包括:所述用户注册或登录网站时。一种标签数据的生成装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述方法实施例。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例。综上所述,本专利技术提出的标签数据的生成方法和装置,通过利用用户的身份验证过程,为训练数据标记标签,可以增加标签数据的真实性以及标签的正确性,进而有利于基于标签数据进行机器学习模型训练的准确性,且效率高、实现成本低。附图说明图1为本专利技术实施例的方法流程示意图;图2为本专利技术实施例中显示待选图片和示例图片的示意图;图3为本专利技术实施例的装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术作进一步地详细描述。图1为本专利技术实施例的方法流程示意图,如图1所示,该实施例实现的标签数据的生成方法主要包括:步骤101、本文档来自技高网
...

【技术保护点】
1.一种标签数据的生成方法,其特征在于,包括:/n当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;/n触发所述用户从所选择的所有图片中选择出属于所述对象的图片;/n根据所述用户的选择结果,为所述未标记图片标记标签。/n

【技术特征摘要】
1.一种标签数据的生成方法,其特征在于,包括:
当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;
触发所述用户从所选择的所有图片中选择出属于所述对象的图片;
根据所述用户的选择结果,为所述未标记图片标记标签。


2.根据权利要求1所述的方法,其特征在于,触发所述用户从所选择的所有图片中选择出属于所述对象的图片包括:
触发在所述用户的终端设备上显示待选图片和一张示例图片,并通知所述用户从所述待选图片中选择出与所述示例图片具有相同内容的所有图片,其中,所述待选图片包括所述第一数量张具有正标签的图片、所述第二数量张具有负标签的图片和所述未标记图片,所述示例图片为具有所述对象内容的图片。


3.根据权利要求1所述的方法,其特征在于,根据所述用户的选择结果,为所述未标记图片标记标签包括:
根据所述用户的选择结果,对所述用户进行身份验证;
当所述身份验证成功时,判断所述用户是否选择了所述未标记图片;如果是,则为所述未标记图片增加一条正记录,否则为所述未标记图片增加一条负记录;
当所述未标记图片的记录总数量达到预设的次数阈值时,如果所述未标记图片的正记录数量与所述记录总数量的比值大于预设的概率阈值,则将所述未标记图片标记为正标签后,将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中;如果所述未标记图片的负记录数量与所述记录总数量的比值大于所述概率阈值,则将所述未标记图片标记为负标签后,将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中。


4.根据权利要求1所述的方法,其特征在于,所述根据所述用户的选择结果,对所述用户进行身份验证包括:
如果所述用户选择的图片中包含了所述第一数量张具有正标签的图片,且不包含所述第二数量张具有负标签的图片中的任一图片,则所述用户的身份验证成功;否则,所述用户的身份验证失败。


5.根据权利要求1所述的方法,其特征在于,所述需要对用户进行身份验证包括:所述用户注册或登录网站时。


6.一种标签数据的生成装置,其特征在于,包括:
第一模块,用于当需要对用户进行身份验证时,对于待识别的...

【专利技术属性】
技术研发人员:高林杰
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1