一种自适应的组合数据挖掘模型系统及方法技术方案

技术编号:17541718 阅读:104 留言:0更新日期:2018-03-24 18:51
本发明专利技术公开了一种自适应的组合数据挖掘模型系统及方法,该系统,包括主动选择定制模块,能够主动选择和定制多种数据挖掘模型,用于适应各种类型和规模数据的分析需求;框架模块,方便设定和选择指标,用于所选择数据挖掘模型的排序,适应数据挖掘场景的动态性需求;支撑定制模块,提供支撑定制化组合多种数据挖掘模型的方法,用于为发挥运维人员经验提供渠道,进而提高分析结果准确性;机制模块,提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制,用于保证数据挖掘模型组合的可扩展性。本发明专利技术使得模型具有保底性、抢占性和主观反应性等特征,可直接应用于多种业务系统的辅助分析与优化。

An adaptive combined data mining model system and method

The invention discloses an adaptive combination of data mining model system and method of the system, including the active choice of customized modules, can take the initiative to choose and customize a variety of data mining model to adapt to the demand analysis of various types and sizes of data; frame module, convenient setting and selection index for the selected data mining model ranking the demand of dynamic adaptive data mining scenarios; support customization module, provides a method for supporting customized combination of multiple data mining models, used to provide channels for the operation and maintenance personnel play experience, and improve the accuracy of analysis results; mechanism module, provide the basis for mining output feedback dynamic adjustment mechanism of the combination of data mining model, to ensure data mining model the combination of scalability. The invention makes the model have the characteristics of foundation preserving, preemptive and subjective response, and can be applied directly to the auxiliary analysis and optimization of various business systems.

【技术实现步骤摘要】
一种自适应的组合数据挖掘模型系统及方法
本专利技术涉及数据挖掘
,具体是一种自适应的组合数据挖掘模型系统及方法。
技术介绍
互联网技术和互联网应用的飞速发展极大地便利了人们的生产与生活,而伴随其发展、以爆炸级速率增长的数据则蕴含着用户的潜在需求和行为习惯,为挖掘其中有用知识、提升服务质量提供了必要基础。大数据技术旨在及时发现隐蔽在纷繁数据背后的有用信息,进而更智慧地满足应用发展需求,如建立用户行为预测模型、挖掘用户的消费习惯等,能够为制定精准营销方案提供技术支撑。基于用户数据,探讨一种能够广泛适应各种数据规模和质量的用户流失预测模型是本专利技术旨在解决的重点问题。以用户数据为例,生成、采集、存储和被利用往往需要相当长的一段时间,但是,为了对决策进行指导,适应各类型数据建立数据挖掘方法已成为辅助广大业务应用系统优化运营的关键。事实上,用户数据具有来源多样、规模差异普遍存在且随时间积累而剧烈变化等特点。以在线游戏为例,用户数据从注册开始逐步得到记录,而其使用频率决定了其个人数据规模,与第三方应用系统(如社交网络、统一用户认证等)的集成更是为获取更多维度数据提供了可能。设计开发可行的数据挖掘模型,探索智能化的用户服务策略已成为各应用提供商在市场竞争中获取有利地位的法宝。然而,上述用户数据特点决定了可行的挖掘模型应能够适应不同用户数据规模,且能够随着其数据量的增加不断优化调整。因此,如何处理历史数据与当前数据、用户个人数据与其他用户数据的关系成为设计挖掘模型的必须解决的问题。在本专利技术中,我们建立了一种通用的数据万挖掘架构,保障系统按照模块化实现,应用者可以自主定制其所需的挖掘模型、对模型的依赖程度以及建立各模型评价指标。在此基础上,规划了一种可以广泛使用的数据分析与挖掘架构。一般地,数据分析可以分为静态数据分析和流式数据分析。对于前者,其数据集往往是静态的,往往采用将数据分为训练集与测试集,通过特征的提取和标注,对训练集进行训练得出训练模型,并通过测试集进行验证,进而确定所训练模型是否可用。对于流式数据分析,其数据集不断产生,分析过程应能够根据输出结果动态调整,而确定何时、如何调整是保证分析结构可用的关键。针对具体的分析对象和应用场景,根据分析手段和过程特点,常用到的分析模型包括基于统计的分析方法、基于特征提取的分析方法和基于特征学习的分析方法;根据是否需要先验知识的,分析模型又可分为有监督分析模型、无监督分析模型和半监督分析;根据是否考虑属性或特征简单关联性,模型可分为独立分析模型和关联分析模型。本专利技术旨在提供一种利用静态分析方法选择和训练模型,并借鉴流式数据分析方法的特点,使用流式数据不断验证和调整分析模型,进而保障模型的适应性和分析结果的准确性。此外,还给出了一种能够保证该框架具有保底性、抢占性和主观反映性的模型组合方法。本专利技术可直接应用于多种业务系统的辅助分析与优化。
技术实现思路
本专利技术的目的在于提供一种自适应的组合数据挖掘模型系统及方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种自适应的数据挖掘组合模型系统,包括:(1)主动选择定制模块,能够主动选择和定制多种数据挖掘模型,用于适应各种类型和规模数据的分析需求;(2)框架模块,方便设定和选择指标,用于所选择数据挖掘模型的排序,适应数据挖掘场景的动态性需求;(3)支撑定制模块,提供支撑定制化组合多种数据挖掘模型的方法,用于为发挥运维人员经验提供渠道,进而提高分析结果准确性;(4)机制模块,提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制,用于保证数据挖掘模型组合的可扩展性。作为本专利技术进一步的方案:主动选择定制模块,对应的工程实现包括:提供提交数据挖掘模型的接口,并规范其所需要的各种数据接口和数据需求;对于添加完成的数据挖掘模型,建立对应的索引结构,建立基于类别的定制和选择操作方式;对各种数据挖掘模型的使用效果评价进行显示辅助用户针对性的选择;对于超过时效的数据挖掘模型,用户删除或存档。作为本专利技术进一步的方案:框架模块,对应的工程实现包括:显示数据挖掘模型的各项可使用参数和已有指标的使用效果,提供定制的界面,用户自定义或选择已有的指标来适应特定的业务应用;针对给定的指标,开发实现引擎在判断的基础上自动化的调整数据挖掘模型的排序、数据挖掘模型的权重或提示选择新的数据挖掘模型。作为本专利技术进一步的方案:指标包括客观指标与主观指标,客观指标包括准确率、错误率、及时指标、期望值、时间区间值;主观指标包括问卷调查。作为本专利技术进一步的方案:支撑定制模块,对应的工程实现应包括:用户查询各种数据挖掘模型在本系统的使用情况,根据观察到的历史信息和及时输出,提供界面能够满足用户对数据挖掘模型依赖程度的输入;系统根据用户的数据值自动化的调取数据挖掘模型组合方式,并实现对即将到来数据的预测和判断。作为本专利技术进一步的方案:支撑定制化组合多种模型的方法,应保证保底性原则、抢占性原则和主观反映原则;所谓保底性是指组合后应一定能够保证有结果输出;抢占性原则是指在数据挖掘模型排序的基础上,排序优先级高的数据挖掘模型具有绝对抢占权利,若用户完全信任某个数据挖掘模型,那么,比它差的数据挖掘模型将不应影响到结果的输出;主观反映原则是指用户的主观判断应能够在最终组合模型的结果输出中有所反映。作为本专利技术进一步的方案:机制模块,对应的工程实现包括:一个能够实现指标判断和自动动作的引擎;对于数据挖掘模型选择部分,当满足设定条件时,应主动向用户发送调整请求,同时,也提供用户主动修改的功能接口;对于数据挖掘模型排序部分,根据指标实现数据挖掘模型的自动排序;对于数据挖掘模型权重调整部分,若满足指标条件则对用户发送相应的建议调整值,并仅由用户确认后,方能完成权重的调整,同时,保留用户主动调整的功能接口。一种自适应的组合数据挖掘模型方法,包括以下步骤:(1)搜集并整理数据集,并根据数据集和应用系统特征选取和训练数据挖掘模型;(2)选取数据挖掘模型的评价指标,并根据指标值对数据挖掘模型进行排序;(3)提供接口让使用者对各种数据挖掘模型进行主观评价和权重设置;(4)选取数据挖掘模型输出结果的组合规则,并组合输出数据挖掘结果;(5)根据输出结果和流式数据的验证,判断各项指标是否满足,并进行相应的动作;(6)设计和开发相应的模块,能够便捷地移植到各种特定的应用业务系统中;(7)建立组合模型使用信息的分享机制,方便各类型业务系统使用者交流和分析使用的心得,以及创造的各种模型组合方式。与现有技术相比,本专利技术的有益效果是:本专利技术提出了一种自适应的组合数据挖掘模型系统及方法,使得模型具有保底性、抢占性和主观反应性等特征。本专利技术可以直接应用于生产业务系统,并给出了一种数据使用流程保证其能直接服务于生产业务系统的优化分析与决策。本专利技术涉及模型选择、模型排序、模型权重设置和框架的动态适应性等内容,并为开发实现提供了可行的技术路线。附图说明图1是自适应组合数据挖掘模型系统示意图;图2是数据处理与分析模型选择框图;图3是用户流失率预测框架图。图4是本专利技术自适应的组合数据挖掘模型方法流程图。图5是选取数据挖掘模型输出并组合输出数据挖掘结果的流程图。具体实施方式下面将结合本专利技术实施例,对本本文档来自技高网
...
一种自适应的组合数据挖掘模型系统及方法

【技术保护点】
一种自适应的数据挖掘组合模型系统,其特征在于,包括:(1)主动选择定制模块,能够主动选择和定制多种数据挖掘模型,用于适应各种类型和规模数据的分析需求;(2)框架模块,方便设定和选择指标,用于所选择数据挖掘模型的排序,适应数据挖掘场景的动态性需求;(3)支撑定制模块,提供支撑定制化组合多种数据挖掘模型的方法,用于为发挥运维人员经验提供渠道,进而提高分析结果准确性;(4)机制模块,提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制,用于保证数据挖掘模型组合的可扩展性。

【技术特征摘要】
1.一种自适应的数据挖掘组合模型系统,其特征在于,包括:(1)主动选择定制模块,能够主动选择和定制多种数据挖掘模型,用于适应各种类型和规模数据的分析需求;(2)框架模块,方便设定和选择指标,用于所选择数据挖掘模型的排序,适应数据挖掘场景的动态性需求;(3)支撑定制模块,提供支撑定制化组合多种数据挖掘模型的方法,用于为发挥运维人员经验提供渠道,进而提高分析结果准确性;(4)机制模块,提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制,用于保证数据挖掘模型组合的可扩展性。2.根据权利要求1所述的自适应的数据挖掘组合模型系统,其特征在于,主动选择定制模块,对应的工程实现包括:提供提交数据挖掘模型的接口,并规范其所需要的各种数据接口和数据需求;对于添加完成的数据挖掘模型,建立对应的索引结构,建立基于类别的定制和选择操作方式;对各种数据挖掘模型的使用效果评价进行显示辅助用户针对性的选择;对于超过时效的数据挖掘模型,用户删除或存档。3.根据权利要求1所述的自适应的数据挖掘组合模型系统,其特征在于,框架模块,对应的工程实现包括:显示数据挖掘模型的各项可使用参数和已有指标的使用效果,提供定制的界面,用户自定义或选择已有的指标来适应特定的业务应用;针对给定的指标,开发实现引擎在判断的基础上自动化的调整数据挖掘模型的排序、数据挖掘模型的权重或提示选择新的数据挖掘模型。4.根据权利要求1所述的自适应的数据挖掘组合模型系统,其特征在于,指标包括客观指标与主观指标,客观指标包括准确率、错误率、及时指标、期望值、时间区间值;主观指标包括问卷调查。5.根据权利要求1所述的自适应的数据挖掘组合模型系统,其特征在于,支撑定制模块,对应的工程实现应包括:用户查询各种数据挖掘模型在本系统的使用情况,根据观察到的历史信息和及时输出,提供界面能够满足用户对数据挖掘模型依赖程度的输入;系统根...

【专利技术属性】
技术研发人员:孟坤李淑琴丁濛郑自强刘宇任雪峰
申请(专利权)人:北京信息科技大学北京融通易达科技有限公司山东管理学院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1