The invention relates to a method and device modeling method based on data mining, the modeling method based on data mining in alternative indicators include: received to be screened, the alternative indicators are divided into K index group; calculate each alternative indicators of each index in group D1 and group D2, the distance between the distance and according to the group within the distance D1 and the distance between groups D2 and based on the screening evaluation calculation rules to calculate the predetermined optional index value corresponding to the A; according to the screening evaluation value A alternative indicators, the K value and establish the index model using alternative indicators based on the selected. The invention can accurately select the weakest index of correlation and improve the modeling efficiency.
【技术实现步骤摘要】
基于数据挖掘的建模方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种基于数据挖掘的建模方法及装置。
技术介绍
目前,在与数据挖掘相关的建模中,通常收集到的备选建模指标数量较多,有时多达200个以上,但通常对建模有效的一般只有一部分,例如在200个备选建模指标中可能只有30个是有效的。为了从大量的备选建模指标中筛选出建模所需的有效指标,现有的方法是人工手动选出高相关度的指标进行建模,这种人工选择的方法由于带有主观性,因此不能准确地选出建模的有效指标,且建模的效率低。
技术实现思路
本专利技术的目的在于提供一种基于数据挖掘的建模方法及装置,旨在准确地选出相关性最弱的备选指标,提高建模效率。为实现上述目的,本专利技术提供一种基于数据挖掘的建模方法,所述基于数据挖掘的建模方法包括:S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;S3,根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。优选地,所述步骤S2包括:S21,计算每一指标群下的备选指标的均值,根据所述均值获取群中心集合,根据所述群中心集合计算每一备选指标与所述群中心集合的距离,以计算得到的距离作为所述群内距离D1;S22,计算每一备选指标所在的指标群与其他各指标群的中心距离,从所述中心距离中获取距离最小的对应的指标群,根据所获取的指标群计算所述群间距离D2;S23,计算所述筛选评价值A:A=(1-D1)/(1- ...
【技术保护点】
一种基于数据挖掘的建模方法,其特征在于,所述基于数据挖掘的建模方法包括:S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;S3,根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。
【技术特征摘要】
1.一种基于数据挖掘的建模方法,其特征在于,所述基于数据挖掘的建模方法包括:S1,在收到待筛选的备选指标后,将所述备选指标均分成K个指标群;S2,计算各指标群中每一备选指标的群内距离D1和群间距离D2,根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A;S3,根据所述筛选评价值A选择备选指标,基于所述K值并利用所选择的备选指标建立指标模型。2.根据权利要求1所述的基于数据挖掘的建模方法,其特征在于,所述步骤S2包括:S21,计算每一指标群下的备选指标的均值,根据所述均值获取群中心集合,根据所述群中心集合计算每一备选指标与所述群中心集合的距离,以计算得到的距离作为所述群内距离D1;S22,计算每一备选指标所在的指标群与其他各指标群的中心距离,从所述中心距离中获取距离最小的对应的指标群,根据所获取的指标群计算所述群间距离D2;S23,计算所述筛选评价值A:A=(1-D1)/(1-D2)。3.根据权利要求2所述的基于数据挖掘的建模方法,其特征在于,所述步骤S3包括:S31,在每一指标群中,选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标;S32,若所述K值大于等于预设阈值时,则利用各指标群挑选出的备选指标建立预定的一指标模型;S33,若所述K值小于预设阈值时,则增大所述K值,重新计算筛选评价值并执行步骤S31,以利用各指标群选出的备选指标建立预定的另一指标模型。4.根据权利要求1至3任一项所述的基于数据挖掘的建模方法,其特征在于,所述步骤S3之后还包括:S4,利用预定的验证数据样本对所建立的指标模型进行验证,将验证后准确率最高的指标模型作为基准模型进行应用。5.根据权利要求4所述的基于数据挖掘的建模方法,其特征在于,所述步骤S4包括:若准确率最高的指标模型的数量为1,则将该准确率最高的指标模型作为基准模型进行应用;若准确率最高的指标模型的数量大于1,则随机选择一准确率最高的指标模型作为基准模型进行应用,或者,增加验证数据样本的数量,直至准确率最高的指标模型的数量为1,并将该准确率最高的指标模型作为基准模型进行应用。6.一种基于数据挖掘的建模装置,其特征在于,所述基...
【专利技术属性】
技术研发人员:陈依云,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。