平衡数据建模中的起源和准确性权衡的方法和系统技术方案

技术编号:11639227 阅读:103 留言:0更新日期:2015-06-24 14:49
本发明专利技术涉及一种平衡数据建模中的起源和准确性权衡的方法和系统。生成数据模型可以包括接收原始数据集,以及基于所述原始数据集的第一特性集生成第一库,基于所述第一库的特性的聚合生成具有第二特性集的第二库,以及基于所述第一和第二特性集生成具有第三特性集的第三库。可以基于所述模型的准确性和起源之间的权衡,生成所述数据模型。

【技术实现步骤摘要】

本公开一般地涉及计算机化建模,更具体地说,涉及大型分析模型。
技术介绍
计算机化数据建模可以用于促进更好地理解大型数据集。数据建模技术的应用很 广泛,并且可以包括金融、保险、医疗保健、教育等领域。尽管在创建分析模型中收集信息是 一项挑战,但同样重要的挑战是呈现信息以使其有用的方式。
技术实现思路
本专利技术的各实施例提供一种用于生成计算机化分析模型的方法、系统和计算机程 序产品,所述计算机化分析模型接收具有定义的第一特性集的原始数据集。基于将领域知 识集应用于所述第一特性集,定义第二特性集,以及基于所述第一和第二特性集的特性之 间的关系,生成特性层次结构。从所述特性层次结构中选择特性集,其中将所述第二特性集 的尽可能多的特性结合到所述分析模型中,同时维持定义的准确性值。基于所选择的特性 集,生成计算机化分析模型。【附图说明】 图IA是根据本公开的一个实施例的数据建模环境的组件的示意框图; 图IB是示出根据本公开的一个实施例的图IA的数据建模环境的选择组件的示意 框图; 图2示出根据本公开的一个实施例的示例性特性层次结构; 图3A是根据本公开的一个实施例的特性层次结构的示意框图; 图3B是根据本公开的一个实施例的决策树模型的示意框图; 图4A是示出根据本公开的一个实施例的用于生成分析模型的方法的步骤的流程 图; 图4B是示出根据本公开的一个实施例的图4A的方法的其它步骤的流程图; 图5是根据本公开的一个实施例的计算机系统的示意框图; 图6是根据本公开的一个实施例的示例性云计算环境的框图;以及 图7是根据本公开的一个实施例的图6的示例性云计算环境的功能层的框图。【具体实施方式】 本公开的各个方面提供解决方案以便生成分析模型和数据分类,它们比现有数据 建模技术提供的解决方案更全面。当前建模技术不提供有关使用什么特性形成模型以及由 于什么原因的清晰视图。当底层数据的大小和结果数据模型的复杂性增加时,该问题加重。 给定底层特性的复杂性,最终用户例如可能不注意或者甚至可能拒绝有价值的洞察。一个 实例是医疗保健领域,其中数据起源(provenance)尤其重要,因为在患者信息的数据挖掘 中使用的抽象并且原始的特性集不易于理解,或者甚至不易于呈现给领域中的专家。如果 分析模型和它所基于的特性未得到很好的解释,则医疗保健领域中的决策者可能不愿意接 受分析模型进行的建议。 例如,第一模型可以基于收集的对应于不同年龄的患者的原始数据,以很高的准 确性预测在患者生命的随后每一年内,70岁以上的患者有95%的可能性需要高成本保健。 高成本保健例如可以定义为对应于为患者提供的医疗服务的成本的货币价值。尽管该实 例中的模型高度准确,但为什么70岁在预测医疗保健成本中发挥作用可能并不显而易见, 艮P,模型可能具有相对低的起源。使用该实例中的模型的医疗保健专业人员可能无法确定 最佳实践,以便帮助患者变得更健康并且产生较低的医疗保健成本,因为医疗保健专业人 员和患者可能对患者年龄具有有限的控制。 另一方面,使用本公开的各实施例生成的模型可以包括基于收集的数据和信息的 更有意义的特性,它们可以使医疗保健专业人员和患者能够采取纠正或预防措施,以便降 低提供给患者的医疗保健的成本。例如,起源级别相对高于上面实例中的第一模型的第二 模型可以使用第一模型的相同底层数据,以70%的准确性预测血糖水平高于特定值的患者 可能产生高医疗保健成本。尽管此第二模型可能在预测患者是否产生高医疗保健成本方面 不如第一模型准确,但第二模型允许医疗保健专业人员确定影响高医疗保健成本的因素, 医疗保健专业人员可以解决该因素。在该实例中,使用第二模型的医疗保健专业人员可以 建议患者接受治疗以便降低患者的血糖水平。这是第一模型不支持的建议,尽管第一模型 远比第二模型准确。 以分类模型为例,大多数现有方法集中于构建可以在分类准确性方面提供高质量 性能的分类模型。因此,通常同等对待模型中的所有特性,并且基于特性对分类准确性的影 响选择这些特性。但是,可用于生成分析模型的不同特性可以包含不同级别的语义。通常, 用于在分析模型中进行分析的原始数据集包含基本特性。本公开有助于在这些基本特性之 上进行构建,以便可以通过应用领域知识(例如,医疗保健领域知识),开发新的有意义特 性。例如,这可以尤其适用于以下情况:给定可接受级别的分类准确性,期望较高的起源级 别。 针对基于特性层次结构构建分类模型的问题,现有解决方案集中于如何通过在适 当层次结构级别选择特性而最大化分析模型性能。为了使模型可理解,它们尝试通过控制 层次结构的深度来简化决策树模型。一种更好的方法可以是通过选择对期望的分析(例 如,用户期望的)更重要的特性,改进模型的可理解性。 相应地,本公开的各实施例允许通过应用领域特定知识,基于具有现有特性集的 数据集来定义新特性。这些新特性通常承载适用于其中部署分析模型的领域的更多语义, 并且可以有助于更好地理解模型。同时,在某些情况下模型可能变得不太准确。但是,本公 开的各实施例可以维持足够级别的期望准确性(例如,用户所期望的),使得给定模型仍可 以用于进行预测。相应地,本公开的各实施例指定模型准确性阈值,并且生成满足该最低准 确性要求的分析模型,同时最大化起源级别。 本公开的各实施例可以提供一但不限于一以下一个或多个特性和/或优点:对原 始数据进行更好地分类、优先级确定和过滤,并且标识使用有意义输入(例如,来自用户) 描述的模型;结果生成引擎,其基于更有意义的信息,更好地理解要采取什么决策;基于定 义为在给定领域中尤其有用的特性,产生更有洞察力的分析结果;控制分析模型的准确性 和起源之间的权衡的能力;以及总体上促进更多地使用分析模型。 图IA是根据本公开的一个实施例的数据建模环境100的组件的示意框图。环境 100例如可以在下面图5中描述的计算机系统中实现。环境100可以包括计算机程序104, 其包含在有形存储器件中。程序104可以促进环境100的功能,包括处理其各种组件之间 的信息,如下所述。 环境100可以还包括原始数据110集合,其包含有关领域的数据,所述数据具有不 同级别的相关性和准确性。原始数据110可以存储在环境100中的有形存储器件上。原始 数据Iio可以具有一个或多个属性,每个属性可以被视为原始数据Iio的特性。领域例如 可以定义为"医疗保健"。因此,原始数据Iio例如可以是在到医疗保健机构一次或多次就 诊期间,从患者收集的医疗保健数据。在该实例中,原始数据Iio可以包括医疗相关的人口 统计信息或其它潜在特性(例如性别和种族),并且可以还包括体重和身高测量、验血结果 等。 原始数据110的特性可以通过特性组合120组件定义和组织,并且通过模型构建 器130处理以便生成分析模型140。可以将分析模型140提供给用户170。如上所述,这些 组件可以实现为程序104的组件,或者实现为环境100中的另一个程序的一部分。下面将 更详细地描述这些组件。 尽管本公开的各实施例讨论用户170的角色,但用户170不必在任何情况下或者 在任何使用相应的实施例期间与这些实施例交互。此外,如果涉及用户170,则用户170例 如可以指定用户170输入作为偏好,在每次本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN104731843.html" title="平衡数据建模中的起源和准确性权衡的方法和系统原文来自X技术">平衡数据建模中的起源和准确性权衡的方法和系统</a>

【技术保护点】
一种用于生成分析模型的计算机实现的方法,所述方法包括:接收具有定义的第一特性集的数据集;基于将领域知识数据集应用于所述第一特性集,定义第二特性集;基于所述第一和第二特性集的特性之间的关系,生成特性层次结构;以及基于从所述特性层次结构中选择特性,生成分析模型,其中所述分析模型包括在维持定义的准确性值时最高数量的所述第二特性集的特性。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:C·古特曼孙行智
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1