数据源重要性的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38586784 阅读:7 留言:0更新日期:2023-08-26 23:28
本发明专利技术实施例公开了一种数据源重要性的确定方法、装置、电子设备及存储介质。该方法可包括:针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中每个数据源下的数据,得到目标模型的输出值;分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并且针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性。本发明专利技术实施例的技术方案,通过确定每个数据源在样本级别下的数据源重要性,然后基于此划分全体样本,由此得到了每个数据源在样本群体级别下的数据源重要性。的数据源重要性。的数据源重要性。

【技术实现步骤摘要】
数据源重要性的确定方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及计算机领域,尤其涉及一种数据源重要性的确定方法、装置、电子设备及存储介质。

技术介绍

[0002]定量风险评估是信贷机构最为核心的业务,其本质是利用预先建立的风险预测模型针对用户进行风险预测,即预测用户在风险指标上的风险分数。进而,授信策略可以根据该风险分数进行授信的决策。
[0003]在风险预测过程中,通常情况下,需要应用到来源于不同数据源的数据。为了提高风险预测模型的预测准确度,可以预先进行数据源重要性的分析。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术中存在以下技术问题:无法有效确定不同数据源的数据源重要性。

技术实现思路

[0005]本专利技术实施例提供了一种数据源重要性的确定方法、装置、电子设备及存储介质,以实现样本群体级别的数据源重要性的有效确定。
[0006]根据本专利技术的一方面,提供了一种数据源重要性的确定方法,可以包括:
[0007]针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;
[0008]分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;
[0009]根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并且针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性;
[0010]其中,样本群体对应的数据源重要性,根据样本群体内的各样本分别对应的数据源重要性确定,且用于表征在样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
[0011]根据本专利技术的另一方面,提供了一种数据源重要性的确定装置,可以包括:
[0012]输出值得到模块,用于针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;
[0013]数据源重要性第一确定模块,用于分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;
[0014]数据源重要性第二确定模块,用于根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性;
[0015]其中,样本群体对应的数据源重要性,根据样本群体内的各样本分别对应的数据
源重要性确定,且用于表征在样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
[0016]根据本专利技术的另一方面,提供了一种电子设备,可以包括:
[0017]至少一个处理器;以及
[0018]与至少一个处理器通信连接的存储器;其中,
[0019]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本专利技术任意实施例所提供的数据源重要性的确定方法。
[0020]根据本专利技术的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本专利技术任意实施例所提供的数据源重要性的确定方法。
[0021]本专利技术实施例的技术方案,针对至少两个样本中的每个样本,通过利用已训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;分别确定每个数据源针对输出值的影响程度,并且将影响程度作为该样本对应的数据源重要性,由此实现了样本级别的不同数据源的数据源重要性的个性化确定的效果;进而,根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性,由此实现了样本群体级别的不同数据源的数据源重要性的个性化确定的效果。上述技术方案,通过确定每个数据源在样本级别下的数据源重要性,然后基于此对全体样本进行群体划分,从而得到每个数据源在样本群体级别下的数据源重要性,由此实现了样本群体级别的数据源重要性的有效确定的效果。
[0022]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或是重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是根据本专利技术实施例提供的一种数据源重要性的确定方法的流程图;
[0025]图2是根据本专利技术实施例提供的另一种数据源重要性的确定方法的流程图;
[0026]图3是根据本专利技术实施例提供的另一种数据源重要性的确定方法的流程图;
[0027]图4是根据本专利技术实施例提供的另一种数据源重要性的确定方法的流程图;
[0028]图5是根据本专利技术实施例提供的另一种数据源重要性的确定方法中的可选示例的流程图;
[0029]图6是根据本专利技术实施例提供的另一种数据源重要性的确定方法中决策树构建示例和群体划分示例的示意图;
[0030]图7是根据本专利技术实施例提供的一种数据源重要性的确定装置的结构框图;
[0031]图8是实现本专利技术实施例的数据源重要性的确定方法的电子设备的结构示意图。
具体实施方式
[0032]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0033]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034]需要说明的是,本专利技术的技术方案中,所涉及到的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,从而防止对用户个人信息数据的非法访问,维护用户个人信息安全、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据源重要性的确定方法,其特征在于,包括:针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理所述样本在至少两个数据源中的每个数据源下的数据,得到所述目标模型的输出值;分别确定所述每个数据源针对所述输出值的影响程度,并将所述影响程度作为所述样本对应的数据源重要性;根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,并针对所述至少一个样本群体中的每个样本群体,得到所述样本群体对应的数据源重要性;其中,所述样本群体对应的数据源重要性,根据所述样本群体内的各样本分别对应的数据源重要性确定,并且用于表征在所述样本群体下所述每个数据源分别针对所述目标模型的模型效果的影响程度。2.根据权利要求1所述的方法,其特征在于,所述根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,包括:将所述每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及所述每个样本分别对应的数据源重要性,构建得到决策树;根据所述决策树,对所述至少两个样本进行群体划分,得到至少一个样本群体。3.根据权利要求2所述的方法,其特征在于,所述将所述每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及所述每个样本分别对应的数据源重要性,构建得到决策树,包括:将所述每个样本分别作为叶子节点,并基于得到的至少两个叶子节点构建得到初始树,将所述初始树中的每个叶子节点的数据源重要性,分别初始化为所述叶子节点所表征的样本对应的数据源重要性;将所述初始树作为中间树,并针对所述中间树中与根节点连接的至少两个第一节点,根据所述至少两个第一节点的数据源重要性,从所述至少两个第一节点中确定两个相似节点,并生成所述两个相似节点的父节点;基于所述中间树中的全部节点和所述父节点,重新构建并更新所述中间树,以基于所述中间树构建得到决策树;所述根据所述决策树,对所述至少两个样本进行群体划分,得到至少一个样本群体,包括:针对所述决策树中的与根节点连接的每个第二节点,将所述决策树中位于所述第二节点下的各叶子节点分别表征的样本,划分到同一样本群体,以得到至少一个样本群体。4.根据权利要求3所述的方法,其特征在于,所述根据所述至少两个第一节点的数据源重要性,从所述至少两个第一节点中确定两个相似节点,包括:针对所述至少两个第一节点中的每两个第一节点,确定所述两个第一节点分别对应的数据源重要性之间的距离;根据得到的各个距离,从所述至少两个第一节点中确定两个相似节点。5.根据权利要求4所述的方法,其特征在于,所述根据得到的各个距离,从所述至少两个第一节点中确定两个相似节点,包括:从得到的各个距离中确定数值最小的最小距离;
在所述最小距离小于或等于预设距离阈值的情况下,将所述至少两个第一节点中与所述最小距离对应的两个第一节点,作为两个相似节点。6.根据权利要求3所述的方法,其特征在于,在所述重新构建并更新所述中间树之后,还包括:根据所述中间树中位于所述父节点下的各叶子节点的数据源重要性,确定所述父节点的数据源重要性;所述以基于所述中间树构建得到决策树,包括:重复执行所述针对所述中间树中与根节点连接的至少两个第一节点的步骤;在未能从所述至少两个第一节点中确定出所述两个相似节点的情况下,将当前应用的所述中间树作为决策树。7.根据权利要求6所述的方法,其特征在于,所述根据所述中间树中位于所述父节点下的各叶子...

【专利技术属性】
技术研发人员:张铭枫黄志翔郑邦祺冯浚洋高俊杰杨恺石通斌李彦瑾刘英楠
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1