【技术实现步骤摘要】
数据源重要性的确定方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及计算机领域,尤其涉及一种数据源重要性的确定方法、装置、电子设备及存储介质。
技术介绍
[0002]定量风险评估是信贷机构最为核心的业务,其本质是利用预先建立的风险预测模型针对用户进行风险预测,即预测用户在风险指标上的风险分数。进而,授信策略可以根据该风险分数进行授信的决策。
[0003]在风险预测过程中,通常情况下,需要应用到来源于不同数据源的数据。为了提高风险预测模型的预测准确度,可以预先进行数据源重要性的分析。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术中存在以下技术问题:无法有效确定不同数据源的数据源重要性。
技术实现思路
[0005]本专利技术实施例提供了一种数据源重要性的确定方法、装置、电子设备及存储介质,以实现样本群体级别的数据源重要性的有效确定。
[0006]根据本专利技术的一方面,提供了一种数据源重要性的确定方法,可以包括:
[0007]针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;
[0008]分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;
[0009]根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并且针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性;
[00 ...
【技术保护点】
【技术特征摘要】
1.一种数据源重要性的确定方法,其特征在于,包括:针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理所述样本在至少两个数据源中的每个数据源下的数据,得到所述目标模型的输出值;分别确定所述每个数据源针对所述输出值的影响程度,并将所述影响程度作为所述样本对应的数据源重要性;根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,并针对所述至少一个样本群体中的每个样本群体,得到所述样本群体对应的数据源重要性;其中,所述样本群体对应的数据源重要性,根据所述样本群体内的各样本分别对应的数据源重要性确定,并且用于表征在所述样本群体下所述每个数据源分别针对所述目标模型的模型效果的影响程度。2.根据权利要求1所述的方法,其特征在于,所述根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,包括:将所述每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及所述每个样本分别对应的数据源重要性,构建得到决策树;根据所述决策树,对所述至少两个样本进行群体划分,得到至少一个样本群体。3.根据权利要求2所述的方法,其特征在于,所述将所述每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及所述每个样本分别对应的数据源重要性,构建得到决策树,包括:将所述每个样本分别作为叶子节点,并基于得到的至少两个叶子节点构建得到初始树,将所述初始树中的每个叶子节点的数据源重要性,分别初始化为所述叶子节点所表征的样本对应的数据源重要性;将所述初始树作为中间树,并针对所述中间树中与根节点连接的至少两个第一节点,根据所述至少两个第一节点的数据源重要性,从所述至少两个第一节点中确定两个相似节点,并生成所述两个相似节点的父节点;基于所述中间树中的全部节点和所述父节点,重新构建并更新所述中间树,以基于所述中间树构建得到决策树;所述根据所述决策树,对所述至少两个样本进行群体划分,得到至少一个样本群体,包括:针对所述决策树中的与根节点连接的每个第二节点,将所述决策树中位于所述第二节点下的各叶子节点分别表征的样本,划分到同一样本群体,以得到至少一个样本群体。4.根据权利要求3所述的方法,其特征在于,所述根据所述至少两个第一节点的数据源重要性,从所述至少两个第一节点中确定两个相似节点,包括:针对所述至少两个第一节点中的每两个第一节点,确定所述两个第一节点分别对应的数据源重要性之间的距离;根据得到的各个距离,从所述至少两个第一节点中确定两个相似节点。5.根据权利要求4所述的方法,其特征在于,所述根据得到的各个距离,从所述至少两个第一节点中确定两个相似节点,包括:从得到的各个距离中确定数值最小的最小距离;
在所述最小距离小于或等于预设距离阈值的情况下,将所述至少两个第一节点中与所述最小距离对应的两个第一节点,作为两个相似节点。6.根据权利要求3所述的方法,其特征在于,在所述重新构建并更新所述中间树之后,还包括:根据所述中间树中位于所述父节点下的各叶子节点的数据源重要性,确定所述父节点的数据源重要性;所述以基于所述中间树构建得到决策树,包括:重复执行所述针对所述中间树中与根节点连接的至少两个第一节点的步骤;在未能从所述至少两个第一节点中确定出所述两个相似节点的情况下,将当前应用的所述中间树作为决策树。7.根据权利要求6所述的方法,其特征在于,所述根据所述中间树中位于所述父节点下的各叶子...
【专利技术属性】
技术研发人员:张铭枫,黄志翔,郑邦祺,冯浚洋,高俊杰,杨恺,石通斌,李彦瑾,刘英楠,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。