针对隐私树模型的解释方法和装置制造方法及图纸

技术编号:24855881 阅读:39 留言:0更新日期:2020-07-10 19:08
本说明书实施例提供一种针对隐私树模型的解释方法和装置,方法包括:主动方记录训练后的树结构中各节点的父子节点关系,各节点包括各分裂点和各叶节点,各分裂点分别对应的训练方及记录编号,各叶节点的叶节点权重;记录编号对应训练方中记录的特征及特征阈值;从至少一个被动方获取属于被动方的各分裂点分别对应的第一训练样本数和第二训练样本数;根据各叶节点的叶节点权重,每个分裂点对应的第一训练样本数和第二训练样本数,按照树结构自底向上回溯计算各分裂点的期望权重;根据各分裂点的期望权重和各叶节点的叶节点权重,以及各父子节点关系,确定各分裂点分别对应的节点贡献度,作为解释性信息。能够适用于保护隐私的隐私树模型。

【技术实现步骤摘要】
针对隐私树模型的解释方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及针对隐私树模型的解释方法和装置。
技术介绍
数据给机器学习、数据挖掘提供源动力,但随着数据挖掘技术的发展,对数据是否被滥用的问题引起广泛的关注,因此隐私保护的重要性在机器学习日益凸显,越来越多基于隐私保护的方案被提出。在众多方案中,隐私树模型利用同态加密的技术,依靠分布于多方的训练样本进行训练。数据挖掘模型往往是一个黑盒,用户无法感知其内部工作状态,为了提高使用模型的可信度,模型解释性就显得至关重要,可用来看模型的结果是否符合专业人员的业务判断,进而确定模型是否可用,或者发现模型中存在的问题。在实际使用当中,例如信贷场景等,既需要模型预测的结果,更需要对预测的结果具有可解释性,给出一个客户具有较高逾期概率的原因。对于保护隐私的隐私树模型,由于其训练方式有别于普通的树模型训练,因此现有的模型解释性方案无法适用,需要针对性设计。
技术实现思路
本说明书一个或多个实施例描述了一种针对隐私树模型的解释方法和装置,能够适用于保护隐私的隐私树模型。第一方面,提供了一种确定隐私树模型的解释性信息的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,方法包括:所述主动方记录训练后的树结构中各节点的父子节点关系,所述各节点包括各分裂点和各叶节点,所述主动方还记录各分裂点分别对应的训练方及在该训练方中的记录编号,各叶节点的叶节点权重;所述记录编号对应训练方中记录的一项特征及该特征的特征阈值;所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数,其中包括,从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数;所述主动方根据各叶节点的叶节点权重,每个分裂点对应的第一训练样本数和第二训练样本数,按照所述树结构自底向上回溯计算各分裂点的期望权重;所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重,以及各父子节点关系,确定各分裂点分别对应的节点贡献度,作为所述解释性信息。在一种可能的实施方式中,所述业务对象包括:用户、商户、商品或事件;所述业务预测包括:对所述业务对象的分类预测或回归值预测。在一种可能的实施方式中,所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数,还包括:所述主动方记录属于所述主动方的分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数。在一种可能的实施方式中,所述主动方从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数,包括:所述主动方从所述至少一个被动方获取各被动方主动上报的属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数。在一种可能的实施方式中,所述按照所述树结构自底向上回溯计算各分裂点的期望权重,包括:以分裂点作为父节点,根据其左子节点的期望权重和所述第一训练样本数,以及其右子节点的期望权重和所述第二训练样本数,计算该分裂点的期望权重。在一种可能的实施方式中,所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重,以及各父子节点关系,确定各分裂点分别对应的节点贡献度,包括:所述主动方确定子节点的期望权重与父节点的期望权重二者的差值,将该差值作为父节点对应的分裂点的节点贡献度。第二方面,提供了一种对隐私树模型的业务预测结果进行解释的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,方法包括:所述主动方获取通过第一方面所述的方法确定的隐私树模型的解释性信息;所述主动方将待测业务对象输入所述隐私树模型,根据所述树结构向各分裂点对应的至少一个被动方发送查询请求,所述查询请求用于指示所述被动方查询分裂点对应的记录编号中的特征及特征阈值,以确定所述待测业务对象的预测路径中该分裂点的子节点;所述主动方根据所述至少一个被动方返回的查询结果,确定预测路径,以及预测结果;所述主动方根据所述解释性信息,确定所述预测路径中各个途经分裂点的节点贡献度;所述主动方向各个途经分裂点对应的被动方,发送所述节点贡献度,以使得所述被动方根据所述节点贡献度,确定本次预测中本方特征的聚合贡献度,所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。第三方面,提供了一种对隐私树模型的业务预测结果进行解释的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,方法包括:所述被动方从所述主动方接收至少一个查询请求,所述查询请求包括待测业务对象信息和记录编号;所述被动方根据记录编号,获取对应的第一特征和第一特征阈值,将所述待测业务对象的第一特征的特征值与所述第一特征阈值比较,将比较结果作为查询结果;所述被动方向所述主动方发送查询结果,以使得所述主动方确定预测路径以及预测结果;所述被动方从所述主动方接收所述被动方对应的分裂点的节点贡献度,该节点贡献度为所述主动方根据解释性信息确定的;所述解释性信息为通过第一方面所述的方法确定的隐私树模型的解释性信息;所述被动方根据所述节点贡献度,确定本次预测中本方特征的聚合贡献度,所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。第四方面,提供了一种确定隐私树模型的解释性信息的装置,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,所述装置设置于所述主动方,装置包括:记录单元,用于记录训练后的树结构中各节点的父子节点关系,所述各节点包括各分裂点和各叶节点,还记录各分裂点分别对应的训练方及在该训练方中的记录编号,各叶节点的叶节点权重;所述记录编号对应训练方中记录的一项特征及该特征的特征阈值;第一确定单元,用于确定训练过程中通过各分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数,其中包括,从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数;计算单元,用于根据所述记录单元记录的各叶节点的叶节点权重,所述第一确定单元确定的每个分裂点对应本文档来自技高网...

【技术保护点】
1.一种确定隐私树模型的解释性信息的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,所述方法包括:/n所述主动方记录训练后的树结构中各节点的父子节点关系,所述各节点包括各分裂点和各叶节点,所述主动方还记录各分裂点分别对应的训练方及在该训练方中的记录编号,各叶节点的叶节点权重;所述记录编号对应训练方中记录的一项特征及该特征的特征阈值;/n所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数,其中包括,从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数;/n所述主动方根据各叶节点的叶节点权重,每个分裂点对应的第一训练样本数和第二训练样本数,按照所述树结构自底向上回溯计算各分裂点的期望权重;/n所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重,以及各父子节点关系,确定各分裂点分别对应的节点贡献度,作为所述解释性信息。/n

【技术特征摘要】
1.一种确定隐私树模型的解释性信息的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,所述方法包括:
所述主动方记录训练后的树结构中各节点的父子节点关系,所述各节点包括各分裂点和各叶节点,所述主动方还记录各分裂点分别对应的训练方及在该训练方中的记录编号,各叶节点的叶节点权重;所述记录编号对应训练方中记录的一项特征及该特征的特征阈值;
所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数,其中包括,从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数;
所述主动方根据各叶节点的叶节点权重,每个分裂点对应的第一训练样本数和第二训练样本数,按照所述树结构自底向上回溯计算各分裂点的期望权重;
所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重,以及各父子节点关系,确定各分裂点分别对应的节点贡献度,作为所述解释性信息。


2.如权利要求1所述的方法,其中,所述业务对象包括:用户、商户、商品或事件;
所述业务预测包括:对所述业务对象的分类预测或回归值预测。


3.如权利要求1所述的方法,其中,所述主动方确定训练过程中通过各分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数,还包括:
所述主动方记录属于所述主动方的分裂点划分到左子树的第一训练样本数,以及划分到右子树的第二训练样本数。


4.如权利要求1所述的方法,其中,所述主动方从所述至少一个被动方获取属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数,包括:
所述主动方从所述至少一个被动方获取各被动方主动上报的属于所述被动方的各分裂点分别对应的第一训练样本数和第二训练样本数。


5.如权利要求1所述的方法,其中,所述按照所述树结构自底向上回溯计算各分裂点的期望权重,包括:
以分裂点作为父节点,根据其左子节点的期望权重和所述第一训练样本数,以及其右子节点的期望权重和所述第二训练样本数,计算该分裂点的期望权重。


6.如权利要求1所述的方法,其中,所述主动方根据各分裂点的期望权重和各叶节点的叶节点权重,以及各父子节点关系,确定各分裂点分别对应的节点贡献度,包括:
所述主动方确定子节点的期望权重与父节点的期望权重二者的差值,将该差值作为父节点对应的分裂点的节点贡献度。


7.一种对隐私树模型的业务预测结果进行解释的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,所述方法包括:
所述主动方获取通过权利要求1所述的方法确定的隐私树模型的解释性信息;
所述主动方将待测业务对象输入所述隐私树模型,根据所述树结构向各分裂点对应的至少一个被动方发送查询请求,所述查询请求用于指示所述被动方查询分裂点对应的记录编号中的特征及特征阈值,以确定所述待测业务对象的预测路径中该分裂点的子节点;
所述主动方根据所述至少一个被动方返回的查询结果,确定预测路径,以及预测结果;
所述主动方根据所述解释性信息,确定所述预测路径中各个途经分裂点的节点贡献度;
所述主动方向各个途经分裂点对应的被动方,发送所述节点贡献度,以使得所述被动方根据所述节点贡献度,确定本次预测中本方特征的聚合贡献度,所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。


8.一种对隐私树模型的业务预测结果进行解释的方法,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本得到,所述多个训练方包括主动方和至少一个被动方,所述主动方至少具有所述训练样本的标签值,每个被动方具有所述训练样本的一部分样本特征,所述方法包括:
所述被动方从所述主动方接收至少一个查询请求,所述查询请求包括待测业务对象信息和记录编号;
所述被动方根据记录编号,获取对应的第一特征和第一特征阈值,将所述待测业务对象的第一特征的特征值与所述第一特征阈值比较,将比较结果作为查询结果;
所述被动方向所述主动方发送查询结果,以使得所述主动方确定预测路径以及预测结果;
所述被动方从所述主动方接收所述被动方对应的分裂点的节点贡献度,该节点贡献度为所述主动方根据解释性信息确定的;所述解释性信息为通过权利要求1所述的方法确定的隐私树模型的解释性信息;
所述被动方根据所述节点贡献度,确定本次预测中本方特征的聚合贡献度,所述聚合贡献度用于解释所述被动方在本次预测中本方特征的贡献。


9.一种确定隐私树模型的解释性信息的装置,所述隐私树模型用于进行业务预测,并基于联邦学习的方式,依靠分布于多个训练方的业务对象作为训练样本...

【专利技术属性】
技术研发人员:方文静王力
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1