一种标注数据的保护方法、终端设备和系统技术方案

技术编号:18593023 阅读:54 留言:0更新日期:2018-08-04 20:08
本发明专利技术公开了一种标注数据的保护方法、终端设备和系统,其中,该保护方法包括:获取用于人工智能模型训练的标注数据;对标注数据的至少部分内容进行加密,以得到可干扰模型训练的样本数据。本发明专利技术能够实现在标注数据的交易过程中,一方面满足持有数据的用户在交易对方购买该数据之前需要将数据展示给对方的需求,另一方面又满足持有数据的用户不希望自己的数据在对方购买之前被对方得到的需求。

Protection method, terminal equipment and system for marking data

The present invention discloses a protection method, terminal device and system for tagging data, in which the protection method includes: obtaining annotation data for the training of artificial intelligence model, encrypting at least part of the content of the tagged data to obtain sample data that can be trained by the interferable model. In the process of tagging data, the invention can meet the needs of the users who hold the data before buying the data to the other party, and on the other hand, the users who hold the data do not want their own data to be obtained by the other party before the other party's purchase.

【技术实现步骤摘要】
一种标注数据的保护方法、终端设备和系统
本专利技术属于人工智能
,涉及一种标注数据的保护方法、终端设备和系统。
技术介绍
近年来人工智能技术得到了飞速发展并逐步应用到更多的行业和领域中,其中的原因是机器学习作为一个分支得到了突破性的进展。机器学习方法作为人工智能的一个分支,其具体特征在于能够通过训练数据的增加而不断提升人工智能任务的性能。也就是说,人工智能技术的发展来自于将任务建立在利用更多的数据的方法之上。例如,机器学习中的一个分支深度学习就能够通过不断使用更多的训练数据,得到了传统人工智能方法无法达到的水平,进而使得过去只能停留在实验室的技术可以在工业和民用领域得到实际应用。因此,可以用于训练人工智能模型的数据变得越来越有价值。但是,在实现本专利技术的过程中,专利技术人发现现有技术中至少存在以下技术问题:在一些领域,通用的数据可以轻易获得,例如通过互联网存储的各种信息,可以得到海量的数据。然而,随着人工智能应用领域的扩大,一个重要的问题逐渐凸显出来。在一些专业领域,用于训练的数据并不容易获得,而且数量非常稀少。例如,可以用于癌症诊断的数据需要一个真实的病人才能获得,一个定制化的服务需要根据定制的需求积累很多年才能使得数据量足够大。因此,标注数据无论是对于购买方还是卖方都意味着很高的价值,在标注数据的交易过程中,持有数据的用户在对方购买该数据之前需要将数据展示给对方,而持有数据的用户又不希望自己的数据在对方购买之前被对方得到,那么如何在数据交易的展示中保护数据是一个苛待解决的问题。
技术实现思路
(一)专利技术目的本专利技术的目的是提供一种能够在标注数据展示过程中对标注数据进行保护的保护方法、终端设备和系统。(二)技术方案为解决上述问题,本专利技术的第一方面提供了一种标注数据的保护方法,包括:获取用于人工智能模型训练的标注数据;对标注数据的至少部分内容进行加密,以得到可干扰模型训练的样本数据。可选地,对所述标注数据的至少部分内容进行加密包括:对所述标注数据的预分类进行调整。可选地,对所述标注数据的至少部分内容进行加密包括:确定所述标注数据的对抗噪声;采用所述对抗噪声对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。可选地,所述保护方法包括:对所述标注数据,确定至少一个不同于其预分类的替代分类;获取所述标注数据从所述预分类到所述替代分类的代价函数;基于所述代价函数,采用反向传播算法计算一调整向量;使用所述调整向量对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。可选地,所述保护方法还包括:计算调整后标注数据在所述替代分类下的代价函数值,在所述代价函数值未达到阈值时,根据再次计算的调整向量继续对所述标注数据的至少部分内容进行调整。可选地,所述样本数据相对于所述标注数据的调整幅度为0.01%-0.7%。可选地,对标注数据的至少部分内容进行加密包括:对整个标注数据包或对随机选取的一份或多份标注数据进行加密;其中,对于选取的每份标注数据,针对整体或部分信息进行加密。可选地,每一所述标注数据的替代分类不同。可选地,采用随机分配方式为每一所述标注数据分配所述替代分类。可选地,在得到可干扰所述模型训练的样本数据的步骤后,还包括:发送所述样本数据;当接收到确认购买消息时,发送所述标注数据;接收所述标注数据的交易金额。根据本专利技术的另一个方面,提供一种终端设备,包括:获取模块,用于获取用作人工智能模型训练的标注数据;加密模块,用于对标注数据进行加密,以得到可干扰模型训练的样本数据。可选地,所述加密模块包括:预分类调整子模块,用于对所述标注数据的预分类进行调整。可选地,所述加密模块包括:对抗噪声确定子模块,用于确定所述标注数据的对抗噪声;预分类调整子模块,用于采用所述对抗噪声对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。可选地,所述对抗噪声确定子模块包括替代分类确定单元、替代分类确定单元和调整向量计算单元:替代分类确定单元,用于对所述标注数据,确定至少一个不同于其预分类的替代分类;代价函数获取单元,用于获取所述标注数据从所述预分类到所述替代分类的代价函数;调整向量计算单元,用于基于所述代价函数,采用反向传播算法计算一调整向量;所述预分类调整子模块,进一步用于使用所述调整向量对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。可选地,所述对抗噪声确定子模块还包括:代价函数值计算单元,用于计算调整后标注数据在所述替代分类下的代价函数值;所述预分类调整子模块,进一步用于在所述代价函数值未达到阈值时,根据再次计算的调整向量继续对所述标注数据的至少部分内容进行调整。可选地,所述样本数据相对于所述标注数据的调整幅度为0.01%-0.7%。可选地,所述加密模块包括:加密子模块,用于对整个标注数据包或对随机选取的一份或多份标注数据进行加密,其中,对于选取的每份标注数据,针对整体或部分信息进行加密。可选地,所述替代分类确定模块还用于,确定每一所述标注数据的替代分类均不同。可选地,所述替代分类确定模块还用于,采用随机分配方式为每一所述标注数据分配所述替代分类。可选地,还包括:发送模块,用于发送所述样本数据;以及当接收到确认购买消息时,发送所述标注数据;接收模块,用于接收所述标注数据的交易金额。根据本专利技术的又一方面,提供一种标注数据的保护系统,包括前述任一种终端设备,还包括一种服务器和购买客户端;终端设备,用于发送标注数据以及样本数据至服务器;服务器,用于将接收到的样本数据转发至购买客户端,和转发确认购买消息至终端设备,以及在接收到标注数据时转发相应金额至终端设备,且将标注数据转发至购买客户端;购买客户端,用于接收样本数据和标注数据,以及发送确认购买消息至服务器。根据本专利技术实施例的另一个方面,提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行上述任一种标注数据的保护方法。根据本专利技术实施例的另一个方面,提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一种标注数据的保护方法。(三)有益效果本专利技术的上述技术方案具有如下有益的技术效果:通过对标注数据进行加密处理,得到可干扰人工智能模型训练的样本数据。在交易时,将样本数据发送至购买方,购买方在接收到样本数据时,通过肉眼几乎观察不到标注数据和样本数据的差异,不会影响购买方检验数据标注质量和标注效果,但如果样本数据被用于人工智能模型训练,则会使人工智能模型将样本数据误分类到错误类别中,而对于标注数据持有方的用户来说,在标注数据交易过程中能够避免购买方在拿到标注数据之后不付款的问题。因此,本专利技术能够实现在标注数据的交易过程中,一方面满足持有数据的用户在对方购买该数据之前需要将数据展示给对方的需求,另一方面满足持有数据的用户不希望自己的数据在对方购买之前被对方得到的需求,即既能够保证购买方对于标注数据的检验需求,又能够实现对用户持有的标注数据进行保护。附图说明图1是现有技术中一种数据交易系统的架构示意图;图2是根据本专利技术一实施例的一种标注数据的保护方法的流程示意图;图3是本专利技术另一实施例的一种标注数本文档来自技高网...

【技术保护点】
1.一种标注数据的保护方法,其特征在于,包括:获取用于人工智能模型训练的标注数据;对所述标注数据的至少部分内容进行加密,以得到可干扰所述模型训练的样本数据。

【技术特征摘要】
1.一种标注数据的保护方法,其特征在于,包括:获取用于人工智能模型训练的标注数据;对所述标注数据的至少部分内容进行加密,以得到可干扰所述模型训练的样本数据。2.根据权利要求1所述的保护方法,其特征在于,对所述标注数据的至少部分内容进行加密包括:对所述标注数据的预分类进行调整。3.根据权利要求1所述的保护方法,其特征在于,对所述标注数据的至少部分内容进行加密包括:确定所述标注数据的对抗噪声;采用所述对抗噪声对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。4.根据权利要求2或3所述的保护方法,其特征在于,所述保护方法包括:对所述标注数据,确定至少一个不同于其预分类的替代分类;获取所述标注数据从所述预分类到所述替代分类的代价函数;基于所述代价函数,采用反向传播算法计算一调整向量;使用所述调整向量对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。5.根据权利要求4所述的保护方法,其特征在于,所述保护方法...

【专利技术属性】
技术研发人员:张昊孙鹏飞
申请(专利权)人:北京墨丘科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1