基于迁移学习实现的私有数据保护建模方法、系统及装置制造方法及图纸

技术编号:23933299 阅读:277 留言:0更新日期:2020-04-25 02:14
本说明书实施例公开了一种基于迁移学习实现的私有数据保护的建模方法、系统及装置。所述方法可以由一个或多个处理器执行,其包括:可以从中间存储设备处获取中间模型,所述中间模型基于第一数据域中的第一数据集获得,并存储于中间存储设备中,所述第一数据集包括文本数据、语音数据、或图像数据。可以基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型。所述第二数据域与所述第一数据域是相互隔离的,所述第二数据集所包含的数据类型与所述第一数据集相对应。本说明书所披露的方法,可以在多方安全计算时保护各方私有数据的安全。

Modeling method, system and device of private data protection based on migration learning

【技术实现步骤摘要】
基于迁移学习实现的私有数据保护建模方法、系统及装置
本申请涉及安全多方计算领域,特别涉及一种基于迁移学习实现的私有数据保护的建模方法、系统及装置。
技术介绍
在大数据时代,通过数据挖掘和机器学习的利用,数据可以被有效地利用起来,以提供个性化推荐、风险控制等各方面的服务。一方面,这些能给用户提供方便安全的服务,另一方面,数据在使用上的隐私保护问题也收到越来越多的关注。在数据建模的过程当中,数据量是否足够是建模成功与否的关键。数据的联合有利于获取更全面的信息,提供更好的模型效果。而如何能够在保护各方私有数据安全的前提下获取最佳的建模效果,是在实际场景亟待解决的问题。因此,提供一种能够预防隐私泄露同时能够实现多方安全计算,以解决各领域机器学习模型数据短缺问题的方法,将大幅降低实际场景中的数据获取难度。
技术实现思路
本说明书实施例之一提供一种基于迁移学习的隐私保护建模方法。所述基于迁移学习的隐私保护建模方法由位于第二数据域中的一个或多个处理器执行,其包括:从中间存储设备处获取中间模型,所述中间模型在第一数据域中基于第一数据集训练初始模型获得,并存储于中间存储设备中,所述第一数据集包括文本数据、语音数据、或图像数据;基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型;所述第二数据域与所述第一数据域之间数据隔离,所述第二数据集所包含的数据类型与所述第一数据集相对应。本说明书实施例之一提供一种基于迁移学习的实现私有数据保护的建模系统,所述系统包括模型获取模块、模型更新模块;所述模型获取模块用于从中间存储设备处获取中间模型,所述中间模型在第一数据域中基于第一数据集训练初始模型获得,并存储于中间存储设备中;所述模型更新模块用于基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型;所述第二数据域与所述第一数据域之间数据隔离。本说明书实施例之一提供一种基于迁移学习的实现私有数据保护的建模系统,所述系统包括位于第一数据域的第一处理设备、位于第二数据域的第二处理设备以及中间存储设备;所述第一处理设备用于基于所述第一数据域中的第一数据集训练初始模型以获取一个或多个中间模型,并传输所述中间模型至所述中间存储设备;所述第二处理设备,用于从所述中间存储设备获取中间模型,并基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型;其中,所述第一数据域与所述第二数据域之间数据隔离。本说明书实施例之一提供一种基于迁移学习的实现私有数据保护的建模装置,包括处理器,所述处理器用于执行基于迁移学习的实现私有数据保护的建模方法。附图说明本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的基于迁移学习实现的私有数据保护的建模系统的应用场景示意图;图2是根据本说明书一些实施例所示的一种基于迁移学习实现的私有数据保护的建模方法的示例性流程图;图3是根据本说明书一些实施例所示的一种模型训练方法的示例性流程图;图4是根据本说明书一些实施例所示的一种基于迁移学习实现的私有数据保护的建模设备的模块图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。在一些实施例中,对于多方联合建模中的一种数据保护方案可以是采用数据隔离的形式进行。用于数据隔离情况下的多方建模一般使用多方安全计算相关的技术,例如,秘密分享,或混淆电路。基于多方安全计算的方案,安全级别较高,对于某些轻量级别的安全保护要求会造成资源浪费。同时,部署成本较高,需要在多方进行计算资源的部分,提供基础算子支持,并且依据算法的不同对交互传输带宽等也有较高要求。另外,方案中涉及到数据的加密、解密、多次传输等较为耗时的过程,运行时间往往较长。本说明书中的一些替代性实施例所提供的建模方法,只需要轻量级的交互,降低了对部署、传输的需求,同时提供了对原始私有数据的保护。图1是根据本说明书一些实施例所示的基于迁移学习实现的私有数据保护的建模系统的应用场景示意图。如图1所示,应用场景100可以包括第一数据域110、第二数据域120、存储设备130以及网络140。所述数据域可以指属于某一方(如服务提供商、政府机关等)的设备或设备集群。在一些实施例中,数据域也可以是实现某一些特定计算功能的设备或设备集群。在一些实施例中,不同数据域之间的数据可以进行交互,实现数据共享。在一些实施例中,不同数据域之间的数据是相互隔离的。数据隔离可以理解为,数据域之间不会将各自拥有的数据资源进行交互。各数据域拥有的数据资源可以是涉及个人或商业隐私安全、具有使用价值的数据,如这些数据可以用于模型训练以获得具有某特定预测功能的机器学习模型。仅作为示例,对于商品销售平台,平台中所有消费者的个人资料以及消费记录等数据可以视作该商品销售平台这一数据域的数据资源。在一些实施例中,各数据域拥自有的数据资源可以作为私有数据,并对其进行信息安全保护。第一数据域110中可以存在有第一处理设备110-1以及第一存储设备110-2。在一些实施例中,第一处理设备110-1可以获取第一数据域110中的其他部件比如第一存储设备110-2中的数据和/或指令,实现本说明书中所描述的至少一个功能。例如,第一处理设备110-1可以利用存储于第一存储设备110-2中的,属于第一数据域110的私有数据对初始模型进行训练,获取中间模型。该初始模型可以是机器学习模型,例如,决策树或神经网络。所获取的中间模型,可以是部分或全部训练完毕的模型。又例如,第一处理设备110-1可以将所述中间模型直接或间接的传输至存储设备130中进行存储。如图1中所示的第一数据域110与存储设备130中的虚线箭头所示,第一处理设备110-1可以本文档来自技高网...

【技术保护点】
1.一种基于迁移学习实现的私有数据保护的建模方法,其中,所述方法由个或多个处理器执行,其包括:/n从中间存储设备处获取中间模型,所述中间模型基于第一数据域中的第一数据集训练得到并存储于中间存储设备中,所述第一数据集包括文本数据、语音数据、或图像数据;/n基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型;所述第二数据域与所述第一数据域是相互隔离的,所述第二数据集所包含的数据的类型与所述第一数据集相对应。/n

【技术特征摘要】
1.一种基于迁移学习实现的私有数据保护的建模方法,其中,所述方法由个或多个处理器执行,其包括:
从中间存储设备处获取中间模型,所述中间模型基于第一数据域中的第一数据集训练得到并存储于中间存储设备中,所述第一数据集包括文本数据、语音数据、或图像数据;
基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型;所述第二数据域与所述第一数据域是相互隔离的,所述第二数据集所包含的数据的类型与所述第一数据集相对应。


2.根据权利要求1所述的方法,其中,所述初始模型为机器学习模型,所述方法还包括:
基于训练任务和/或所述第二数据集,调整所述中间模型的结构以获取调整后的中间模型。


3.根据权利要求2所述的方法,其中,所述基于训练任务和/或所述第二数据集,调整所述中间模型的结构,包括:增加或减少中间模型的运算节点。


4.根据权利要求2所述的方法,其中,所述基于所述第二数据域中的第二数据集,更新中间模型以获取目标模型,包括:
基于所述第二数据集,训练调整后的中间模型以获得目标模型。


5.一种基于迁移学习的实现私有数据保护的建模系统,所述系统包括获取模块、以及更新模块;
所述获取模块,用于从中间存储设备处获取中间模型,所述中间模型在第一数据域中基于第一数据集训练初始模型获得,并存储于中间存储设备中;
所述更新模块,用于基于所述第二数据域中的第二数据集,更新所述中间模型以获取目标模型;所述第二数据域...

【专利技术属性】
技术研发人员:方文静王力
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1