面向多方企业联合信用评级的特征组合筛选方法及应用技术

技术编号:35359681 阅读:20 留言:0更新日期:2022-10-26 12:43
本方案提供一种面向多方企业联合信用评级的特征组合筛选方法及应用,构建由至少两参与方以纵向联邦学习参与建模的企业信用评级模型,并获取每一参与方的特征数据对训练得到的企业信用评级模型的沙普利值的边际贡献量;选取边际贡献量最大的特征数据作为起始特征数据,基于起始特征数据采用贪心算法迭代筛选有效特征数据,整合所述起始特征数据和所述有效特征数据作为特征组合,在保证多方企业信用数据的隐私性的前提下,降低模型的过拟合性的同时有效地控制了数据成本,且可保证企业信用评级模型的预测性能不受影响。评级模型的预测性能不受影响。评级模型的预测性能不受影响。

【技术实现步骤摘要】
面向多方企业联合信用评级的特征组合筛选方法及应用


[0001]本申请涉及企业评级领域,特别涉及一种面向多方企业联合信用评级的特征组合筛选方法及应用。

技术介绍

[0002]企业信用评级,指的是信用评估机构对征集到的企业信用信息,依据一定指标进行信用等级评定的活动。企业主体信用分析的主要内容包括:产业、企业素质、经营管理、财务状况和偿债能力等方面。由于企业各项财务指标与信用风险之间往往存在着非线性关系,因此人工神经网络比较适用于企业的信用评价。现阶段,各机构都在着手建立或优化企业信用评级模型,但大多基于机构自身拥有的企业数据,而因为大多数机构内部的企业数据有限,导致各个机构的信用评级模型往往达不到预期的实用效果。
[0003]若需要得到更好的企业评级结果,需要结合多方的企业信用数据,然而不同机构之间的数据又存在数据壁垒以及数据隐私保护的监管要求,导致不同机构通常不能进行数据传输或交换,导致“数据孤岛”问题,限制了企业信用评级模型的推广和发展。联邦学习技术则是该场景下的一个解决方案,能够在保证模型性能的同时保护数据隐私。联邦学习范式的主要思想是建立基于跨多个数据源存在的训练数据集的机器学习模型,而不需要在各个数据拥有者之间直接交换数据。这种模式允许多个参与者协同训练一个联合模型,并将其数据保存在本地,在一定程度上解决数据隐私安全问题,实现联合建模。
[0004]然而在利用联邦学习构建联合多方企业信用数据的企业信用评级模型的方案中,通过采用纵向联邦学习的方式,此时各参与方的特特征存在重复或者高度相关的特征,联邦学习的方式对所有的特征数据进行训练会导致模型过拟合的问题;此外,参与学习的特征数据越多就意味着数据成本越高,故不论从模型本身的计算压力亦或者计算企业信用评级的成本上都希望能够采用尽可能少的特征数据。

技术实现思路

[0005]本申请方案提供一种面向多方企业联合信用评级的特征组合筛选方法及应用,在保证多方企业信用数据的隐私性的前提下,从各个参与方的众多特征数据中筛选恰当的特征数据组合以用于企业信用评级模型的构建,降低模型的过拟合性的同时有效地控制了数据成本,且可保证企业信用评级模型的预测性能不受影响。
[0006]为实现以上目的,本技术方案提供一种面向多方企业联合信用评级的特征组合筛选方法,包括:构建由至少两参与方以纵向联邦学习参与建模的企业信用评级模型,并获取每一参与方的特征数据对训练得到的企业信用评级模型的沙普利值的边际贡献量;选取边际贡献量最大的特征数据作为起始特征数据,基于所述起始特征数据采用贪心算法迭代筛选有效特征数据,整合所述起始特征数据和所述有效特征数据作为特征组合。
[0007]第二方面,本方案提供一种企业信用评级模型,采用所述的面向多方企业联用信用评级的特征组合筛选方法筛选得到的特征组合对企业信用评级模型进行训练得到。
[0008]第三方面,本方案提供了一种面向多方企业联用信用评级的特征组合筛选装置,包括:边际共享量获取单元,用于构建由至少两参与方以纵向联邦学习参与建模的企业信用评级模型,并获取每一参与方的特征数据对训练得到的企业信用评级模型的沙普利值的边际贡献量;筛选单元,用于选取边际贡献量最大的特征数据作为起始特征数据,基于所述起始特征数据采用贪心算法迭代筛选有效特征数据,整合所述起始特征数据和所述有效特征数据作为特征组合。
[0009]第四方面,本方案提供一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的面向多方企业联合信用评级的特征组合筛选方法。
[0010]第五方面,本方案提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据所述的面向多方企业联合信用评级的特征组合筛选方法。
[0011]相较现有技术,本技术方案具有以下特点和有益效果:针对各个参与方纵向联邦学习的方式,在各个参与方的数据不直接可见的情形下,结合沙普利值的贡献度以及贪心算法从多个参与方的众多信用评级中筛选恰当的特征数据,以有效筛选出该场景下对纵向联邦学习的企业信用评级模型最需要的特征数据,有效避免各参与方的重叠特征或高相关特征参与模型训练而导致的模型过拟合现象,并且控制联合建模的成本,尽可能提升最终信用评级模型的性能。
附图说明
[0012]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本方案的面向多方企业联合信用评级的特征组合筛选方法的流程示意图;图2是本方案的面向多方企业联合信用评级的特征组合筛选方法的逻辑示意图;图3是纵向联邦学习的示意图;图4是根据本方案的面向多方企业联合信用评级的特征组合筛选装置的示意图;图5是实施本方案的面向多方企业联合信用评级的特征组合筛选方法的电子装置的示意图。
具体实施方式
[0013]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相
一致的装置和方法的例子。
[0014]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0015]实施例一在介绍本方案之前,首先对本方案涉及到的专业术语进行解释说明:纵向联邦学习:在数据集上具有相同的样本空间、不同的特征空间的参与方所组成的联邦学习,也可以理解为按特征划分的联邦学习。主要由两个部分组成:首先对齐具有相同的ID但分布于不同参与方的实体;然后对这些已对齐的实体执行加密的模型训练。
[0016]企业信用评级:指信用评估机构对征集到的企业信用信息,依据一定指标进行信用等级评定的活动。
[0017]沙普利值:Shapley value,是一种利益分配的方法,按贡献来评估如何分配利益,贡献和收益成正比,主要由四个公理组成:对称性、有效性、冗员性以及独立性。
[0018]本申请方案提供了一种面向多方企业联用信用评级的特征组合筛选方法,包括以下步骤:构建由至少两参与方以纵向联邦学习参与建模的企业信用评级模型,并获取每一参与方的特征数据对训练得到的企业信用评级模型的沙普利值的边际贡献量;选取边际贡献量最大的特征数据作为起始特征数据,基于所述起始特征数据采用贪心算法迭代筛选有效特征数据,整合所述起始特征数据和所述有效特征数据作为特征组合。
[0019]值得一提的是,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多方企业联合信用评级的特征组合筛选方法,其特征在于,包括:构建由至少两参与方以纵向联邦学习参与建模的企业信用评级模型,并获取每一参与方的特征数据对训练得到的企业信用评级模型的沙普利值的边际贡献量;选取边际贡献量最大的特征数据作为起始特征数据,基于所述起始特征数据采用贪心算法迭代筛选有效特征数据,整合所述起始特征数据和所述有效特征数据作为特征组合。2.根据权利要求1所述的面向多方企业联合信用评级的特征组合筛选方法,其特征在于,“构建由至少两参与方以纵向联邦学习参与建模的企业信用评级模型”包括以下步骤:获取各个参与方的特征数据,其中所述特征数据标记有企业信用评级结果,且特征数据具有相同或重叠的样本空间但不同的特征空间;对各个参与方的特征数据进行样本对齐,并对对齐后的特征数据进行计算和加密后输入到企业信用评级模型中进行学习;对各参与方上传的特征数据进行全局聚合后更新所述企业信用评级模型。3.根据权利要求2所述的面向多方企业联合信用评级的特征组合筛选方法,其特征在于,可信第三方服务端将企业信用评级模型下发给各个参与方,各个参与方利用本地的特征数据进行计算得到本次计算结果结果,采用同态加密的方式进行加密后再上传给可信第三方服务端,第三方服务端根据各参与方上传的本地计算结果,对企业信用评级模型进行聚合更新,并将结果再次下发到各参与方。4.根据权利要求1所述的面向多方企业联合信用评级的特征组合筛选方法,其特征在于,在“获取每一参与方的特征数据对训练得到的企业信用评级模型的沙普利值的边际贡献量”步骤中,将每个参与方的特征数据分别输入到企业信用评级模型得到优化指标,基于优化指标计算每个特征数据的沙普利值的边际贡献量。5.根据权利要求1所述的面向多方企业联合信用评级的特征组合筛选方法,其特征在于,“基于所述起始特征数据采用贪心算法迭代筛选有效特征数据”包括以下步骤:S1:整合所有参与方的所有特征数据为全局特征集,选择起始特征数据作为入模的第一个特征P1=p1;S2:固定第一个选定的初始特征组合P
k
,依次将全局特征集合S中的其余特征与初...

【专利技术属性】
技术研发人员:陈定徐行吴俊杰刘冠男陈宏张丽君
申请(专利权)人:杭州衡泰技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1