深度学习系统中数据集标注的管理方法和装置制造方法及图纸

技术编号:20945017 阅读:25 留言:0更新日期:2019-04-24 02:36
本申请公开了一种深度学习系统中数据集标注的管理方法和装置。所述方法包括:在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标注的数据,其中所述已标注的数据均有对应的基准标注结果,其中所述基准标注结果是经过验证正确性后得到的标注结果;获取所述用户对所述数据集中已标注的数据的标注结果;根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作。

Management Method and Device of Data Set Annotation in Deep Learning System

This application discloses a management method and device for data set annotation in a deep learning system. The method includes: after receiving the operation request of the user to annotate the data in the data set, outputting the data already annotated in the pre-stored data set. The annotated data have corresponding datum annotation results, and the datum annotation results are the annotation results obtained after the validation of the correctness; obtaining the label of the user to the data already annotated in the data set. The annotation result determines whether the user is allowed to perform the annotation operation of the data set according to the annotation result of the annotated data and the benchmark annotation result of the user.

【技术实现步骤摘要】
深度学习系统中数据集标注的管理方法和装置
本申请涉及信息处理领域,尤指一种深度学习系统中数据集标注的管理方法和装置。
技术介绍
深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示,以一幅画为例,观测值可以为每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务,例如,人脸识别或面部表情识别等。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习的数据来源是数据挖掘(Datamining)来得到的,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据。训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高。在人工智能时代,深度学习作为一种强有力的技术已经开始改变我们生活的方方面面。在深度学习中,拥有数据量大,多样性高,样本质量高的数据集对于深度学习的训练和验证是十分必要的。但是获得高质量的数据集,需要花费大量的人力成本。
技术实现思路
为了解决上述技术问题,本申请提供了一种深度学习系统中数据集标注的管理方法和装置,能够降低数据集中数据的标注成本。为了达到本申请目的,本申请提供了一种深度学习系统中数据集标注的管理方法,包括:在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标注的数据,其中所述已标注的数据均有对应的基准标注结果,其中所述基准标注结果是经过验证正确性后得到的标注结果;获取所述用户对所述数据集中已标注的数据的标注结果;根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作。在一个示例性实施例中,所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作,包括:根据所述数据的基准标注结果,判断所述用户对已标注的数据的标注结果的正确率信息;将得到的正确率信息与预先设置的正确率阈值进行比较,得到比较结果;如果比较结果为大于等于所述正确率阈值,则允许所述用户执行数据集的标注操作;否则,拒绝所述用户执行数据集的标注操作。在一个示例性实施例中,所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作之后,所述方法还包括:在确定允许对所述数据集进行标注操作之后,获取所述数据集中未标注的数据;输出所述数据集中未标注的数据,请求所述用户进行标注操作;在得到所述用户对所述未标注的数据的标注结果后,对所述未标注的数据的标注结果进行验证;在验证通过后,保存所述用户对所述未标注的数据的标注结果。在一个示例性实施例中,所述输出所述数据集中未标注的数据,包括:输出所述数据集中已标注的数据和未标注的数据,其中所述未标注的数据占数据的量总和的比例小于等于m;其中,m=1-n;其中,m表示未标注的数据的占全部数据的比例阈值,n表示已标注的数据的标注结果与基准标注结果的正确率阈值,m和n均为大于0的实数。在一个示例性实施例中,所述输出所述数据集中未标注的数据,请求所述用户进行标注操作包括:按照预先设置的输出顺序,将每条未标注的数据至少输出两次,请求所述用户进行标注操作;所述对所述未标注的数据的标注结果进行验证,包括:获取对同一条未标注的数据的至少两次的标注结果;当所述至少两次的标注结果中同一标注结果的占比达到预先设置的阈值时,将占比达到所述阈值的标注结果作为所述未标注的数据的基准标注结果。为了达到本申请目的,本申请提供了一种深度学习系统中数据集标注的管理装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标注的数据,其中所述已标注的数据均有对应的基准标注结果,其中所述基准标注结果是经过验证正确性后得到的标注结果;获取所述用户对所述数据集中已标注的数据的标注结果;根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作。在一个示例性实施例中,所述处理器在实现根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作操作时,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:根据所述数据的基准标注结果,判断所述用户对已标注的数据的标注结果的正确率信息;将得到的正确率信息与预先设置的正确率阈值进行比较,得到比较结果;如果比较结果为大于等于所述正确率阈值,则允许所述用户执行数据集的标注操作;否则,拒绝所述用户执行数据集的标注操作。在一个示例性实施例中,所述处理器在实现根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作的操行之后,所述处理器调用所述存储器中的计算机程序以实现如下操作,还包括:在确定允许对所述数据集进行标注操作之后,获取所述数据集中未标注的数据;输出所述数据集中未标注的数据,请求所述用户进行标注操作;在得到所述用户对所述未标注的数据的标注结果后,对所述未标注的数据的标注结果进行验证;在验证通过后,保存所述用户对所述未标注的数据的标注结果。在一个示例性实施例中,所述处理器在实现输出所述数据集中未标注的数据的操作时,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:输出所述数据集中已标注的数据和未标注的数据,其中所述未标注的数据占数据的量总和的比例小于等于m;其中,m=1-n;其中,m表示未标注的数据的占全部数据的比例阈值,n表示已标注的数据的标注结果与基准标注结果的正确率阈值,m和n均为大于0的实数。在一个示例性实施例中,所述处理器在实现输出所述数据集中未标注的数据,请求所述用户进行标注操作的操作时,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:按照预先设置的输出顺序,将每条未标注的数据至少输出两次,请求所述用户进行标注操作;所述处理器在实现对所述未标注的数据的标注结果进行验证的操作时,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:获取对同一条未标注的数据的至少两次的标注结果;当所述至少两次的标注结果中同一标注结果的占比达到预先设置的阈值时,将占比达到所述阈值的标注结果作为所述未标注的数据的基准标注结果。本申请提供的实施例,在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标注的数据,并获取所述用户对所述数据集中已标注的数据的标注结果,根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作,实现根据用户的标注结果和基准标注结果来判断用户标注行为是否合理行为的目的,从而控制是否允许用户进行数据集标注操作的目的,保证用户的标注行为的合理性,保证数据集标注行为的准确性,减少数据集标注行为的失误性发生的概率,保证数据集标注行为的有效性,达到降低数据集中数据的标注成本的目的。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而本文档来自技高网...

【技术保护点】
1.一种深度学习系统中数据集标注的管理方法,其特征在于,包括:在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标注的数据,其中所述已标注的数据均有对应的基准标注结果,其中所述基准标注结果是经过验证正确性后得到的标注结果;获取所述用户对所述数据集中已标注的数据的标注结果;根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作。

【技术特征摘要】
1.一种深度学习系统中数据集标注的管理方法,其特征在于,包括:在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标注的数据,其中所述已标注的数据均有对应的基准标注结果,其中所述基准标注结果是经过验证正确性后得到的标注结果;获取所述用户对所述数据集中已标注的数据的标注结果;根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作。2.根据权利要求1所述的方法,其特征在于,所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作,包括:根据所述数据的基准标注结果,判断所述用户对已标注的数据的标注结果的正确率信息;将得到的正确率信息与预先设置的正确率阈值进行比较,得到比较结果;如果比较结果为大于等于所述正确率阈值,则允许所述用户执行数据集的标注操作;否则,拒绝所述用户执行数据集的标注操作。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述用户对已标注的数据的标注结果以及所述基准标注结果,确定是否允许所述用户执行数据集的标注操作之后,所述方法还包括:在确定允许对所述数据集进行标注操作之后,获取所述数据集中未标注的数据;输出所述数据集中未标注的数据,请求所述用户进行标注操作;在得到所述用户对所述未标注的数据的标注结果后,对所述未标注的数据的标注结果进行验证;在验证通过后,保存所述用户对所述未标注的数据的标注结果。4.根据权利要求3所述的方法,其特征在于,所述输出所述数据集中未标注的数据,包括:输出所述数据集中已标注的数据和未标注的数据,其中所述未标注的数据占数据的量总和的比例小于等于m;其中,m=1-n;其中,m表示未标注的数据的占全部数据的比例阈值,n表示已标注的数据的标注结果与基准标注结果的正确率阈值,m和n均为大于0的实数。5.根据权利要求3所述的方法,其特征在于:所述输出所述数据集中未标注的数据,请求所述用户进行标注操作包括:按照预先设置的输出顺序,将每条未标注的数据至少输出两次,请求所述用户进行标注操作;所述对所述未标注的数据的标注结果进行验证,包括:获取对同一条未标注的数据的至少两次的标注结果;当所述至少两次的标注结果中同一标注结果的占比达到预先设置的阈值时,将占比达到所述阈值的标注结果作为所述未标注的数据的基准标注结果。6.一种深度学习系统中数据集标注的管理装置,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:在接收到用户标注数据集中数据的操作请求后,输出预先存储的数据集中已标...

【专利技术属性】
技术研发人员:李铭琨
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1