标签数据的生成方法和装置制造方法及图纸

技术编号：24517864 阅读：13 留言：0更新日期：2020-06-17 06:53

本申请公开了一种标签数据的生成方法和装置，包括：当需要对用户进行身份验证时，对于待识别的对象，从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片，从该对象的未标记图片集合中选择一张未标记图片；触发所述用户从所选择的所有图片中选择出属于所述对象的图片；根据所述用户的选择结果，为所述未标记图片标记标签。采用本发明专利技术，可以增加标签数据的真实性以及标签的正确性，有利于机器学习模型训练的准确性，且效率高、实现成本低。

全部详细技术资料下载

【技术实现步骤摘要】
标签数据的生成方法和装置
本专利技术涉及计算机应用技术，特别是涉及一种标签数据的生成方法和装置。
技术介绍
在海量数据时代，深度学习为人工智能带来了新的机会。这些机会集中在三个地方：文本、图片和语音识别。传统的机器学习算法，数据增长到一定体量，算法效果会遇到瓶颈。但如果运用新的深度学习算法，随着数据的增长，算法的效果可以持续提升。Google的研究人员用3亿张图的内部数据集做了实验，然后写了篇论文。他们指出，在深度模型中，视觉任务性能随训练数据量(取对数)的增加，线性上升。所以训练数据的数量对计算机视觉任务(图片分类、目标检测、图片风格迁移等)的效果影响比较大。目前，获取带标签的训练图片数据的主要方式有两种，一种是人工标记的方式，另一种是数据扩充的方式。其中，人工标记的方式主要是通过人工对图片进行标记标签，形成训练数据集。数据扩充的方式主要是在人工标记的图片的基础上进行镜像翻转(Mirroring)、随机剪裁(RandomCropping)、色彩转换(Colorshifting)等操作来扩充原有数据集。在实现本专利技术过程中，专利技术人发现上述现有的标签标记方案至少存在如下问题：人工标记图片的方式需要消耗大量的人力，一方面成本较高，另一方面出于成本的控制无法采用对每张图片综合多人标记结果的方式来降低个体对图片的标记错误率，从而使得标记数据集的标签存在一定的错误。而对于数据扩充的方式，虽然能够增加训练图片数量，且不需要人工参与，但是由于是对人工标记的图片的变形结果，并不能准确地描述图片所...

【技术保护点】
1.一种标签数据的生成方法，其特征在于，包括：/n当需要对用户进行身份验证时，对于待识别的对象，从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片，从该对象的未标记图片集合中选择一张未标记图片；/n触发所述用户从所选择的所有图片中选择出属于所述对象的图片；/n根据所述用户的选择结果，为所述未标记图片标记标签。/n

【技术特征摘要】
1.一种标签数据的生成方法，其特征在于，包括：
当需要对用户进行身份验证时，对于待识别的对象，从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片，从该对象的未标记图片集合中选择一张未标记图片；
触发所述用户从所选择的所有图片中选择出属于所述对象的图片；
根据所述用户的选择结果，为所述未标记图片标记标签。

2.根据权利要求1所述的方法，其特征在于，触发所述用户从所选择的所有图片中选择出属于所述对象的图片包括：
触发在所述用户的终端设备上显示待选图片和一张示例图片，并通知所述用户从所述待选图片中选择出与所述示例图片具有相同内容的所有图片，其中，所述待选图片包括所述第一数量张具有正标签的图片、所述第二数量张具有负标签的图片和所述未标记图片，所述示例图片为具有所述对象内容的图片。

3.根据权利要求1所述的方法，其特征在于，根据所述用户的选择结果，为所述未标记图片标记标签包括：
根据所述用户的选择结果，对所述用户进行身份验证；
当所述身份验证成功时，判断所述用户是否选择了所述未标记图片；如果是，则为所述未标记图片增加一条正记录，否则为所述未标记图片增加一条负记录；
当所述未标记图片的记录总数量达到预设的次数阈值时，如果所述未标记图片的正记录数量与所述记录总数量的比值大于预设的概率阈值，则将所述未标记图片标记为正标签后，将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中；如果所述未标记图片的负记录数量与所述记录总数量的比值大于所述概率阈值，则将所述未标记图片标记为负标签后，将所述未标记图片从所述对象的未标记图片集合移出至所述对象的已标记图片集合中。

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户的选择结果，对所述用户进行身份验证包括：
如果所述用户选择的图片中包含了所述第一数量张具有正标签的图片，且不包含所述第二数量张具有负标签的图片中的任一图片，则所述用户的身份验证成功；否则，所述用户的身份验证失败。

5.根据权利要求1所述的方法，其特征在于，所述需要对用户进行身份验证包括：所述用户注册或登录网站时。

6.一种标签数据的生成装置，其特征在于，包括：
第一模块，用于当需要对用户进行身份验证时，对于待识别的...

【专利技术属性】
技术研发人员：高林杰，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人