用于评估预测模型的方法和装置制造方法及图纸

技术编号:11018507 阅读:61 留言:0更新日期:2015-02-11 09:11
本发明专利技术的各实施方式提供了一种用于评估预测模型的方法和装置。所述方法包括:对训练样本集中的训练样本的特征进行识别;基于所识别出的特征,从评估指标集合中选择至少一个评估指标以作为可用指标;将基于所述训练样本集创建的预测模型应用到测试样本集,以计算所述可用指标的值;以及利用所述可用指标和所述可用指标的值对所述预测模型进行评估。采用本发明专利技术的各个实施方式所述的技术方案,可以从若干评估指标中确定适用于特定的训练样本的评估指标,以便用户能够利用所确定的评估指标对预测模型进行准确的评估。

【技术实现步骤摘要】
【专利摘要】本专利技术的各实施方式提供了一种用于评估预测模型的方法和装置。所述方法包括:对训练样本集中的训练样本的特征进行识别;基于所识别出的特征,从评估指标集合中选择至少一个评估指标以作为可用指标;将基于所述训练样本集创建的预测模型应用到测试样本集,以计算所述可用指标的值;以及利用所述可用指标和所述可用指标的值对所述预测模型进行评估。采用本专利技术的各个实施方式所述的技术方案,可以从若干评估指标中确定适用于特定的训练样本的评估指标,以便用户能够利用所确定的评估指标对预测模型进行准确的评估。【专利说明】用于评估预测模型的方法和装置
本专利技术的各实施方式涉及数据挖掘领域,更具体地,涉及用于评估预测模型的方法和装置。
技术介绍
数据挖掘(Data Mining, DM)又称数据库中的知识发现(Knowledge Discoveryin Database, KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associat1n rulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 目前已经开发了多种数据挖掘平台,利用这些平台可以快速创建预测模型,并将其应用于产业,以帮助决策者做出正确的决策。预测模型的表现形式可以包括规则集、数学公式、决策树等,可以利用它们根据一组输入或变量来产生预测结果。在创建了预测模型之后,通常需要采用评估指标对预测模型的性能(准确度)进行评估,以确保生成的预测结果的准确性。 存在用于评估预测模型的多种指标,例如受试者工作曲线下方面积(AUC)、精准度(Accuracy)、f分数(F-score)、召回率(Recall)、准确率(Precis1n)等,而目前已开发的数据流平台仅可提供精准度这一评估指标。然而,在某些情况下,例如对于不平衡样本,精准度这一评估指标并不足以反映所创建的预测模型的性能。因此,如何从众多评估指标中确定适当的评估指标以对预测模型进行评估成为目前数据挖掘领域中的一个研究重点。
技术实现思路
因而,本专利技术的实施方式提供了一种用于评估预测模型的方法和装置,以解决或者至少部分地缓解现有技术中存在的上述问题。 在第一方面中,本专利技术的实施方式提供了一种用于评估预测模型的方法。该方法包括:对训练样本集中的训练样本的特征进行识别;基于所识别出的特征,从评估指标集合中选择至少一个评估指标以作为可用指标;将基于所述训练样本集创建的预测模型应用到测试样本集,以计算所述可用指标的值;以及利用所述可用指标和所述可用指标的值对所述预测模型进行评估。 在一个示例性实施方式中,所述评估指标集合包括多个第一元素,每个所述第一元素包括一个评估指标和与所述评估指标相关联的至少一个属性。 在一个示例性实施方式中,从评估指标集合中选择至少一个评估指标以作为可用指标包括:将所识别出的特征与所述评估指标集合中的每个评估指标的所述至少一个属性进行比较;以及响应于所识别出的特征与至少一个评估指标的至少一个属性相匹配,选择所述至少一个评估指标以作为所述可用指标。 在一个示例性实施方式中,与所述评估指标相关联的所述至少一个属性至少包括所述评估指标所适用的样本类型、以及所述评估指标所适用的数据挖掘任务类型。 在一个示例性实施方式中,所识别出的特征至少包括所述训练样本的类型和所述训练样本所针对的数据挖掘任务类型。 在第二方面中,本专利技术的实施方式提供了一种用于评估预测模型的装置。该装置包括:识别模块,被配置为对训练样本集中的训练样本的特征进行识别;选择模块,被配置为基于所识别出的特征而从评估指标集合中选择至少一个评估指标以作为可用指标;计算模块,被配置为将基于所述训练样本集创建的预测模型应用到测试样本集,以计算所述可用指标的值;以及评估模块,被配置为利用所述可用指标和所述可用指标的值对所述预测模型进行评估。 采用本专利技术的各个实施方式所述的技术方案,可以从若干评估指标中确定适于特定的训练样本特征(例如训练样本类型和训练样本所针对的数据挖掘任务类型)的评估指标,以便用户能够利用所确定的评估指标对预测模型进行准确的评估。 【专利附图】【附图说明】 结合附图并参考以下详细说明,本专利技术各实施方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本专利技术的若干实施方式。在附图中: 图1示意性示出了适于实现本专利技术实施方式的示例性计算系统的框图; 图2示意性示出了根据本专利技术一个实施方式的用于评估预测模型的方法的流程图; 图3示意性示出了根据本专利技术一个实施方式的识别训练样本、以及基于该识别而从评估指标集合中选择可用指标的流程图; 图4示意性示出了根据本专利技术另一个实施方式的用于评估预测模型的方法的流程图; 图5示意性示出了根据本专利技术又一个实施方式的用于评估预测模型的方法的流程图; 图6示意性示出了根据本专利技术一个实施方式的用于评估预测模型的装置的框图; 图7中的表I示出了本专利技术一个实施方式中的示例性样本集; 图8中的表2示出了本专利技术一个实施方式中的评估指标集合的示例; 图9中的表3示出了根据本专利技术一个实施方式中的计算可用指标的值的示例; 图10中的表4示出了本专利技术一个实施方式中的第一用户偏好集合的示例;以及 图11中的表5示出了本专利技术一个实施方式中的第二用户偏好集合的示例。 【具体实施方式】 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。 所属
的技术人员知道,本专利技术可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本专利技术还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。 可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或本文档来自技高网
...
用于评估预测模型的方法和装置

【技术保护点】
一种用于评估预测模型的方法,包括:对训练样本集中的训练样本的特征进行识别;基于所识别出的特征,从评估指标集合中选择至少一个评估指标以作为可用指标;将基于所述训练样本集创建的预测模型应用到测试样本集,以计算所述可用指标的值;以及利用所述可用指标和所述可用指标的值对所述预测模型进行评估。

【技术特征摘要】

【专利技术属性】
技术研发人员:王瑜严骏驰董维山张超田春华王俞
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1