数据交换方法、数据交换装置及计算装置制造方法及图纸

技术编号:13342979 阅读:99 留言:0更新日期:2016-07-13 20:46
在提供方与获取方之间针对机器学习进行数据交换的数据交换方法、数据交换装置及计算装置,该方法包括:(a)获得提供方机器学习模型;(b)利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;(c)将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。根据本发明专利技术实施例的数据交换方法,原始数据被变换为不可还原但可应用于机器学习的向量信息以进行交换,使得一方面能够保障有效地使用数据进行机器学习,另一方面能够防止原始数据被不经授权地使用、出售或泄露。

【技术实现步骤摘要】
数据交换方法、数据交换装置及计算装置
本专利技术总体地涉及数据交换技术,具体说来,涉及一种针对机器学习任务在数据的提供方和获取方之间进行数据交换的数据交换方法、数据交换装置及计算装置。
技术介绍
随着大数据、云计算和人工智能等技术的发展,机器学习被广泛地用来从海量数据中挖掘其中隐藏的有用信息。为了应用机器学习,通常需要从给定的训练数据集中学习出一个由函数和参数组成的模型,当新数据到来时,可以针对该新数据应用这个模型。为了更好地学习或应用模型,往往还需要来自外部的数据参与到模型的学习(例如,训练)或应用,这些数据可从外部购买或以其它方式从外部获得。例如,当银行希望通过数据挖掘技术来预测用户申请信用卡的欺诈风险时,可将过往大量用户在申请信用卡时填写的各项信息及其相应的真实信用记录作为历史数据,通过机器学习算法训练欺诈风险预测模型。这样,当新的用户申请信用卡时,可基于新用户填写的各项信息,利用预测模型来预测新用户申请信用卡的欺诈风险。然而,在某些情况下,用户填写的各项信息并不足以精细地刻画出用户的形象,相应地,仅依据银行所拥有的用户数据,不能够精确地判断出用户是否有欺诈动机。为此,银行需要结合各种外部数据来进行模型的训练,作为示例,外部数据可包括:移动互联网行为数据(包括手机号码、通讯录数据、手机型号、生产厂商、硬件信息、经常使用的APP、社交分享的内容等等)、移动设备通信数据(包括手机号码、通讯录数据和通话记录)、移动运营商数据(包括手机号码、上网浏览行为和APP使用行为)。应注意的是,在以明文(或者加密)进行上述数据的交换时,很容易泄露用户的隐私信息或其它不适于披露的信息,并且,明文交换的数据很容易在未经授权的情况下被再次使用或出售,难以从技术上保障数据的合法使用。例如,当数据提供方将上述外部数据提供给银行使用时,会担心用户的隐私被无端泄露,也会担心数据不经授权而被再次使用或出售。
技术实现思路
根据本专利技术示例性实施例的一个方面,提供了一种在提供方与获取方之间针对机器学习进行数据交换的方法,所述方法包括:(a)获得提供方机器学习模型;(b)利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;(c)将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。进一步地,根据本专利技术示例性实施例所述的方法,其中,步骤(a)包括:基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。进一步地,根据本专利技术示例性实施例所述的方法,其中,输出数据样本包括提供方训练样本,并且,在步骤(b)中,对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。进一步地,根据本专利技术示例性实施例所述的方法,其中,在步骤(b)中,对于不作为提供方训练样本的输出数据样本,利用学习完毕的提供方机器学习模型,将输出数据样本分别变换为相应的输出特征向量。进一步地,根据本专利技术示例性实施例所述的方法,其中,交换样本能够被获取方用于获得获取方机器学习模型,或者,交换样本能够被获取方用于利用获取方机器学习模型进行预测。进一步地,根据本专利技术示例性实施例所述的方法,其中,所述方法由提供方执行,并且,所述方法还包括:(d)将交换样本提供给获取方以应用于机器学习;或者,所述方法由除了提供方和获取方之外的第三方执行,并且,所述提供方训练样本和/或所述输出数据样本的各个特征是经过哈希变换的,并且,所述方法还包括:(d)将交换样本提供给获取方以应用于机器学习;或者,所述方法由获取方执行,并且,所述提供方训练样本和/或所述输出数据样本是经过加密的,其中,获取方通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密并执行步骤(a)和步骤(b)。进一步地,根据本专利技术示例性实施例所述的方法,其中,在步骤(b)中,将每条输出数据样本输入提供方机器学习模型,并将提供方机器学习模型针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。进一步地,根据本专利技术示例性实施例所述的方法,其中,提供方机器学习模型基于深度神经网络算法,并且,在步骤(b)中,将提供方机器学习模型针对每条输出数据样本的中间层和/或输出层的节点值作为与所述每条输出数据样本相应的输出特征向量。进一步地,根据本专利技术示例性实施例所述的方法,在步骤(a)中用于获得提供方机器学习模型的机器学习算法与获取方用于获得获取方机器学习模型的机器学习算法相同。进一步地,根据本专利技术示例性实施例所述的方法,其中,所述交换样本能够被获取方与其相应的本地数据样本进行组合以应用于机器学习。进一步地,根据本专利技术示例性实施例所述的方法,其中,在步骤(a)之前,所述方法还包括:(e)获取来自获取方的至少一部分数据样本的标识符以及所述来自获取方的至少一部分数据样本针对机器学习目标问题的标注,并且,在步骤(a)中,获取提供方的数据样本之中具有在步骤(e)获取的标识符的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本,基于提供方训练样本的集合,根据有监督机器学习算法来训练提供方机器学习模型。进一步地,根据本专利技术示例性实施例所述的方法,其中,所述交换样本被获取方应用于针对所述机器学习目标的机器学习。进一步地,根据本专利技术示例性实施例所述的方法,其中,来自获取方的至少一部分数据样本的标识符与提供方的数据样本的标识符经过同样的哈希变换。进一步地,根据本专利技术示例性实施例所述的方法,其中,步骤(e)还包括获取与所述标注对应的标注产生时间,并且,在步骤(a)中,获取提供方的数据样本之中具有在步骤(e)获取的标识符且样本的产生时间适用于相应的标注产生时间的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本。进一步地,根据本专利技术示例性实施例所述的方法,其中,在步骤(c)中,将变换后的输出特征向量、相应的标识符和相应的输出数据样本产生时间组合成交换样本。根据本专利技术示例性实施例的另一方面,提供一种在提供方与获取方之间针对机器学习进行数据交换的数据交换装置,包括:提供方机器学习模型获得单元,用于获得提供方机器学习模型;输出特征向量变换单元,用于利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;以及交换样本生成单元,用于将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。进一步地,根据本专利技术示例性实施例所述的数据交换装置,其中,提供方机器学习模型获得单元基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。进一步地,根据本专利技术示例性实施例所述的数据交换装置,其中,输出数据样本包括提供方训练样本,并且,输出特征向量变换单元对于提供方训练样本,利本文档来自技高网
...
数据交换方法、数据交换装置及计算装置

【技术保护点】
一种在提供方与获取方之间针对机器学习进行数据交换的方法,所述方法包括:(a)获得提供方机器学习模型;(b)利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;(c)将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。

【技术特征摘要】
1.一种在提供方与获取方之间针对机器学习进行数据交换的方法,所述方法包括:(a)获得提供方机器学习模型,其中,提供方机器学习模型涉及的特征与提供方的数据样本的特征存在交集或关联性;(b)利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;(c)将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。2.根据权利要求1所述的方法,其中,步骤(a)包括:基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。3.根据权利要求2所述的方法,其中,输出数据样本包括提供方训练样本,并且,在步骤(b)中,对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。4.根据权利要求2所述的方法,其中,在步骤(b)中,对于不作为提供方训练样本的输出数据样本,利用学习完毕的提供方机器学习模型,将输出数据样本分别变换为相应的输出特征向量。5.根据权利要求2所述的方法,其中,交换样本能够被获取方用于获得获取方机器学习模型,或者,交换样本能够被获取方用于利用获取方机器学习模型进行预测。6.根据权利要求1或2所述的方法,其中,所述方法由提供方执行,并且,所述方法还包括:(d)将交换样本提供给获取方以应用于机器学习;或者,所述方法由除了提供方和获取方之外的第三方执行,并且,所述提供方训练样本和/或所述输出数据样本的各个特征是经过哈希变换的,并且,所述方法还包括:(d)将交换样本提供给获取方以应用于机器学习;或者,所述方法由获取方执行,并且,所述提供方训练样本和/或所述输出数据样本是经过加密的,其中,获取方通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密并执行步骤(a)和步骤(b)。7.根据权利要求1所述的方法,其中,在步骤(b)中,将每条输出数据样本输入提供方机器学习模型,并将提供方机器学习模型针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。8.根据权利要求1所述的方法,其中,提供方机器学习模型基于深度神经网络算法,并且,在步骤(b)中,将提供方机器学习模型针对每条输出数据样本的中间层和/或输出层的节点值作为与所述每条输出数据样本相应的输出特征向量。9.根据权利要求5所述的方法,其中,在步骤(a)中用于获得提供方机器学习模型的机器学习算法与获取方用于获得获取方机器学习模型的机器学习算法相同。10.根据权利要求1所述的方法,其中,所述交换样本能够被获取方与其相应的本地数据样本进行组合以应用于机器学习。11.根据权利要求1所述的方法,其中,在步骤(a)之前,所述方法还包括:(e)获取来自获取方的至少一部分数据样本的标识符以及所述来自获取方的至少一部分数据样本针对机器学习目标问题的标注,并且,在步骤(a)中,获取提供方的数据样本之中具有在步骤(e)获取的标识符的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本,基于提供方训练样本的集合,根据有监督机器学习算法来训练提供方机器学习模型。12.根据权利要求11所述的方法,其中,所述交换样本被获取方应用于针对所述机器学习目标的机器学习。13.根据权利要求11所述的方法,其中,来自获取方的至少一部分数据样本的标识符与提供方的数据样本的标识符经过同样的哈希变换。14.根据权利要求11所述的方法,其中,步骤(e)还包括获取与所述标注对应的标注产生时间,并且,在步骤(a)中,获取提供方的数据样本之中具有在步骤(e)获取的标识符且样本的产生时间适用于相应的标注产生时间的至少一部分数据样本,将所述至少一部分数据样本之中的每条数据样本与对应于其标识符的标注组合成提供方训练样本。15.根据权利要求1所述的方法,其中,在步骤(c)中,将变换后的输出特征向量、相应的标识符和相应的输出数据样本产生时间组合成交换样本。16.一种在提供方与获取方之间针对机器学习进行数据交换的数据交换装置,包括:提供方机器学习模型获得单元,用于获得提供方机器学习模型,其中,提供方机器学习模型涉及的特征与提供方的数据样本的特征存在交集或关联性;输出特征向量变换单元,用于利用提供方机器学习模型,将提供方的数据样本之中将要提供给获取方的输出数据样本分别变换为相应的输出特征向量;以及交换样本生成单元,用于将变换后的输出特征向量与相应的标识符组合成交换样本,其中,所述交换样本能够被获取方应用于机器学习。17.根据权利要求16所述的数据交换装置,其中,提供方机器学习模型获得单元基于来自提供方的提供方训练样本,学习提供方机器学习模型,其中,所述提供方机器学习模型包括以下项之中的至少一项:有监督机器学习模型、无监督机器学习模型、半监督机器学习模型。18.根据权利要求17所述的数据交换装置,其中,输出数据样本包括提供方训练样本,并且,输出特征向量变换单元对于提供方训练样本,利用学习过程中的提供方机器学习模型,将提供方训练样本分别变化为相应的输出特征向量。19.根据权利要求17所述的数据交换装置,其中,输出特征向量变换单元对于不作为提供方训练样本的输出数据样本,利用学习完毕的提供方机器学习模型,将输出数据样本分别变换为相应的输出特征向量。20.根据权利要求17所述的数据交换装置,其中,交换样本能够被获取方用于获得获取方机器学习模型,或者,交换样本能够被获取方用于利用获取方机器学习模型进行预测。21.根据权利要求16或17所述的数据交换装置,其中,所述数据交换装置应用于提供方,并且,所述数据交换装置还包括:提供单元,用于将交换样本提供给获取方以应用于机器学习;或者,所述数据交换装置应用于除了提供方和获取方之外的第三方,并且,所述提供方训练样本和/或所述输出数据样本的各个特征是经过哈希变换的,并且,所述数据交换装置还包括:提供单元,用于将交换样本提供给获取方以应用于机器学习;或者,所述数据交换装置应用于获取方,并且,所述提供方训练样本和/或所述输出数据样本是经过加密的,其中,提供方机器学习模型获得单元还通过调用由除了提供方和获取方之外的第三方提供的服务将加密的提供方训练样本和/或输出数据样本解密,并且,提供方机器学习模型获得单元和输出特征向量变换单元通过调用所述服务执行操作。22.根据权利要求16所述的数据交换装置,其中,输出特征向量变换单元将每条输出数据样本输入提供方机器学习模型,并将提供方机器学习模型针对所述每条输出数据样本的中间结果作为与所述每条输出数据样本相应的输出特征向量。23.根据权利要求16所述的数据交换装置,...

【专利技术属性】
技术研发人员:陈雨强戴文渊
申请(专利权)人:北京物思创想科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1