基于数据挖掘的建模方法及装置制造方法及图纸

技术编号:15691526 阅读:39 留言:0更新日期:2017-06-24 04:48
本发明专利技术涉及一种基于数据挖掘的建模方法及装置,所述基于数据挖掘的建模方法包括:在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。本发明专利技术能够准确地选出相关性最弱的备选指标,提高建模效率。

Method and device for modeling based on Data Mining

The invention relates to a method and device modeling method based on data mining, the modeling method based on data mining in alternative indicators include: received to be screened, the alternative indicators are divided into K index group; calculate each alternative indicators of each index in group D1 and group D2, the distance between the distance and according to the group within the distance D1 and the distance between groups D2 and based on the screening evaluation calculation rules to calculate the predetermined optional index value corresponding to the A; according to the screening evaluation value A alternative indicators, the K value and establish the index model using alternative indicators based on the selected. The invention can accurately select the weakest index of correlation and improve the modeling efficiency.

【技术实现步骤摘要】
基于数据挖掘的建模方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种基于数据挖掘的建模方法及装置。
技术介绍
目前,在与数据挖掘相关的建模中,通常收集到的备选建模指标数量较多,有时多达200个以上,但通常对建模有效的一般只有一部分,例如在200个备选建模指标中可能只有30个是有效的。为了从大量的备选建模指标中筛选出建模所需的有效指标,现有的方法是人工手动选出高相关度的指标进行建模,这种人工选择的方法由于带有主观性,因此不能准确地选出建模的有效指标,且建模的效率低。
技术实现思路
本专利技术的目的在于提供一种基于数据挖掘的建模方法及装置,旨在准确地选出相关性最弱的备选指标,提高建模效率。为实现上述目的,本专利技术提供一种基于数据挖掘的建模方法,所述基于数据挖掘的建模方法包括:S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;S3,根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。优选地,所述步骤S2包括:S21,计算每一指标群下的备选指标的均值,根据所述均值获取群中心集合,根据所述群中心集合计算每一备选指标与所述群中心集合的距离,以计算得到的距离作为所述群内距离D1;S22,计算每一备选指标所在的指标群与其他各指标群的中心距离,从所述中心距离中获取距离最小的对应的指标群,根据所获取的指标群计算所述群间距离D2;S23,计算所述筛选评价值A:A=(1-D1)/(1-D2)。优选地,所述步骤S3包括:S31,在每一指标群中,选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标;S32,若所述K值大于等于预设阈值时,则利用各指标群挑选出的备选指标建立预定的一指标模型;S33,若所述K值小于预设阈值时,则增大所述K值,重新计算筛选评价值并执行步骤S31,以利用各指标群选出的备选指标建立预定的另一指标模型。优选地,所述步骤S3之后还包括:S4,利用预定的验证数据样本对所建立的指标模型进行验证,将验证后准确率最高的指标模型作为基准模型进行应用。优选地,所述步骤S4包括:若准确率最高的指标模型的数量为1,则将该准确率最高的指标模型作为基准模型进行应用;若准确率最高的指标模型的数量大于1,则随机选择一准确率最高的指标模型作为基准模型进行应用,或者,增加验证数据样本的数量,直至准确率最高的指标模型的数量为1,并将该准确率最高的指标模型作为基准模型进行应用。为实现上述目的,本专利技术还提供一种基于数据挖掘的建模装置,所述基于数据挖掘的建模装置包括:均分模块,用于在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;计算模块,用于计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;建立模块,用于根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。优选地,所述计算模块包括:第一计算单元,用于计算每一指标群下的备选指标的均值,根据所述均值获取群中心集合,根据所述群中心集合计算每一备选指标与所述群中心集合的距离,以计算得到的距离作为所述群内距离D1;第二计算单元,用于计算每一备选指标所在的指标群与其他各指标群的中心距离,从所述中心距离中获取距离最小的对应的指标群,根据所获取的指标群计算所述群间距离D2;第三计算单元,用于计算所述筛选评价值A:A=(1-D1)/(1-D2)。优选地,所述建立模块包括:选择单元,用于在每一指标群中,选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标;第一建立单元,用于若所述K值大于等于预设阈值时,则利用各指标群挑选出的备选指标建立预定的一指标模型;第二建立单元,用于若所述K值小于预设阈值时,则增大所述K值,重新计算筛选评价值并选出的备选指标,以利用各指标群选出的备选指标建立预定的另一指标模型。优选地,所述基于数据挖掘的建模装置还包括:验证模块,用于利用预定的验证数据样本对所建立的指标模型进行验证,将验证后准确率最高的指标模型作为基准模型进行应用。优选地,所述验证模块具体用于若准确率最高的指标模型的数量为1,则将该准确率最高的指标模型作为基准模型进行应用;若准确率最高的指标模型的数量大于1,则随机选择一准确率最高的指标模型作为基准模型进行应用,或者,增加验证数据样本的数量,直至准确率最高的指标模型的数量为1,并将该准确率最高的指标模型作为基准模型进行应用。本专利技术的有益效果是:本专利技术在将备选指标均分为若干个指标群后,首先计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据群内距离D1和群间距离D2计算得到筛选评价值A,由于筛选评价值A综合考虑备选指标的群内距离D1和群间距离D2,因此,根据筛选评价值A可以选出相关性最小的备选指标,即选出的备选指标为最具有代表性或者最有效的指标,不需人工手动选取,选取的准确性高,且建模效率高。附图说明图1为本专利技术基于数据挖掘的建模方法第一实施例的流程示意图;图2为图1所示步骤S2的细化流程示意图;图3为图1所示步骤S3的细化流程示意图;图4为本专利技术基于数据挖掘的建模方法第二实施例的流程示意图;图5为本专利技术基于数据挖掘的建模装置一实施例的结构示意图;图6为图5所示计算模块的结构示意图;图7为图5所示建立模块的结构示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,图1为本专利技术基于数据挖掘的建模方法一实施例的流程示意图,该基于数据挖掘的建模方法包括以下步骤:步骤S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;本实施例可应用在一基于数据挖掘的建模装置中,该装置在接收到待筛选的备选指标后,将备选指标随机均分成K个指标群,以对备选指标进行聚类分析。其中,K为大于1的自然数,例如,共有150个备选指标,若K为10,则随机均分成10个指标群,每个指标群中有15个备选指标。其中,在接收到150个备选指标之前,例如初始备选指标有200个,可以通过逐步回归向前向后的方法,设置合适的参数来初步选出150个备选指标。其中,以建立客户是否发生理赔的模型为例,备选指标包括人口统计特征、生命阶段特征、客户价值信息、产品持有情况、投保行为习惯、历史理赔相关信息等等。步骤S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;本实施例中,群内距离D1指的是备选指标变量与群中心集合的相关系数,该群内距离D1越大,则说明该备选指标与群中心集合的相关性越大。群中心集合由各指标群中的备选指标的均值决定。群间距离D2指的是备选指标变量与离群最近的群的中心的相关系数,该群间距离D2越小,则说明该备选指标与离群最近的群的中心的相关性越大。根据各备选指标的群内距离D1和群间距离D2计算筛选评价值A时,同时考虑各备选指标的群内距离D1和群间距离D2,所计算得出的筛选评本文档来自技高网...
基于数据挖掘的建模方法及装置

【技术保护点】
一种基于数据挖掘的建模方法,其特征在于,所述基于数据挖掘的建模方法包括:S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;S3,根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。

【技术特征摘要】
1.一种基于数据挖掘的建模方法,其特征在于,所述基于数据挖掘的建模方法包括:S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;S3,根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。2.根据权利要求1所述的基于数据挖掘的建模方法,其特征在于,所述步骤S2包括:S21,计算每一指标群下的备选指标的均值,根据所述均值获取群中心集合,根据所述群中心集合计算每一备选指标与所述群中心集合的距离,以计算得到的距离作为所述群内距离D1;S22,计算每一备选指标所在的指标群与其他各指标群的中心距离,从所述中心距离中获取距离最小的对应的指标群,根据所获取的指标群计算所述群间距离D2;S23,计算所述筛选评价值A:A=(1-D1)/(1-D2)。3.根据权利要求2所述的基于数据挖掘的建模方法,其特征在于,所述步骤S3包括:S31,在每一指标群中,选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标;S32,若所述K值大于等于预设阈值时,则利用各指标群挑选出的备选指标建立预定的一指标模型;S33,若所述K值小于预设阈值时,则增大所述K值,重新计算筛选评价值并执行步骤S31,以利用各指标群选出的备选指标建立预定的另一指标模型。4.根据权利要求1至3任一项所述的基于数据挖掘的建模方法,其特征在于,所述步骤S3之后还包括:S4,利用预定的验证数据样本对所建立的指标模型进行验证,将验证后准确率最高的指标模型作为基准模型进行应用。5.根据权利要求4所述的基于数据挖掘的建模方法,其特征在于,所述步骤S4包括:若准确率最高的指标模型的数量为1,则将该准确率最高的指标模型作为基准模型进行应用;若准确率最高的指标模型的数量大于1,则随机选择一准确率最高的指标模型作为基准模型进行应用,或者,增加验证数据样本的数量,直至准确率最高的指标模型的数量为1,并将该准确率最高的指标模型作为基准模型进行应用。6.一种基于数据挖掘的建模装置,其特征在于,所述基...

【专利技术属性】
技术研发人员:陈依云
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1