用于改进信息资产的分类的细分和校准方法和系统技术方案

技术编号:8563278 阅读:174 留言:0更新日期:2013-04-11 05:04
本发明专利技术涉及用于改进信息资产的分类的细分和校准方法和系统。描述了用于细分使用业务术语表的术语分类或归类的资产的手工分类的技术。语义细分机构用于细分这种资产的手工分类,以及随后评估细分的资产分类。另外,细分的资产分类可用作机器学习分类器的训练集。也就是说,如果有助于细分的资产的分类改变,则至少在一些情况下,可撤销基于该分类的细分。

【技术实现步骤摘要】
用于改进信息资产的分类的细分和校准方法和系统
本专利技术的实施例一般地涉及一种用于管理业务术语表中的资产的分类的方法。更具体地讲,本专利技术的实施例提供用于基于与资产关联的一组属性和其它类似资产的分类来细分相对于业务术语表的资产的手工分类(classification)或归类(categorization)的各种技术。
技术介绍
大的组织经常使用各种软件应用和系统来定义并管理业务术语表。业务术语表(glossary)自身可提供在组织内(以及跨子组织)使用的术语的受控词汇表。业务术语表中的术语代表组织中的主要信息概念,并且类别用于把术语组织成层级结构。业务术语表允许数据分析员、业务分析员和专门领域专家创建业务术语的丰富的术语表、层级结构和关系。业务术语表把业务概念链接到技术元数据,并且能够使用各种用户界面在整个企业揭示这些链接。例如,基于web的工具可包括用于创建、管理和共享业务术语表的受控词汇表的用户界面。除了维护受控词汇表之外,这种界面可提供分类方案以及术语和类别的分类法,并允许管理员把术语分配给业务资产。“管理员(Steward)”通常是指组织内负责给定信息资产的人,通常是被分派管理一组术语的任务的专门领域专家。这种分配经常是手工的,其中管理员依赖于他的领域知识执行这项任务。然而,众所周知,手工的分类经常导致基于管理员识别的任何合适的种类(术语/类别)的幼稚的分配。也就是说,管理员可能在“首次最佳匹配”基础上把资产分配给分类,而非检查存在于术语表中的已有种类。尽管这导致准确的分类,但它可能对于分类的资产而言不一定是一般性的并且与类似资产的分类不一致。例如,当另一术语“交通工具-卡车-送货”存在于业务术语表中时,管理员可能把送货卡车(即一资产)分配给资产分类“交通工具”或“交通工具-卡车”。另外,当两个组织合并(或者一个组织分裂成更小的单位)时,可能需要对新的资产进行分类,不同业务术语表中的术语可能需要合并和协调,等等。也已提出用于自动地把资产分配给特定种类的各种方案。自动分类机制典型地依赖于超出已经存在于术语表中的内容的关于资产的外部描述,然后应用一些自然语言处理技术以提取可能在分类中有用的特征。另一方案是尝试基于作为训练数据集的已有手工分类来训练分类器。然而,训练自身依赖于手工分配,由于上述原因,这经常是有问题的。
技术实现思路
本专利技术的一个实施例提供一种细分使用业务术语表中的术语分类的资产的计算机实现的方法。该方法可一般地包括:接收多个资产,每个资产具有从业务术语表中选择的术语的分类。业务术语表提供在组织内使用的术语的受控词汇表的层级结构,并且每个资产的特征在于使用从领域本体(domainontology)选择的一组属性的数据库记录。这种方法还可包括:通过一个或多个计算机处理器的操作,针对一组细分准则评估分配给所述多个资产中的每一个资产的分类,并细分分配给至少第一资产的分类,其中第一资产满足该组细分准则。在特定实施例中,这种方法还可包括:存储对第一资产和至少第二资产的参考,其中根据所述一组细分准则,第二资产有助于第一资产的细分。基于确定第二资产已被重新分类,可针对所述细分准则重新评估分配给第一资产的细分的分类,并且如果第一资产不再满足所述一组细分准则,则撤销分配给第一资产的细分的分类。在特定实施例中,细分准则包括:确定第二资产的分类是分配给业务术语表中的第一资产的分类的子孙,并且相对于本体,第二资产的每个属性具有比第一资产中的对应属性更一般性的值。另外的实施例包括一种计算机可读存储介质以及一种具有处理器和存储器的系统,所述计算机可读存储介质存储应用,当在处理器上执行该应用时,该应用执行上述方法,所述存储器存储企业信息资产管理应用程序,当在处理器上执行该应用程序时,该应用程序执行上述方法。附图说明为了获得上述各方面并且能够详细地理解上述各方面,可通过参照附图提供以上简要总结的本专利技术的实施例的更具体的描述。然而,应该注意的是,附图仅示出本专利技术的典型实施例,因此不应视为限制它的范围,因为本专利技术可允许其它同样有效的实施例。图1示出根据本专利技术一个实施例的用于使用业务术语表中的术语来管理资产的分类的示例性计算基础设施。图2示出根据本专利技术一个实施例的用于细分使用业务术语表中的术语分类的资产的系统的高级架构。图3示出根据本专利技术一个实施例的用于对业务术语表中的术语进行分类的方法。图4示出根据本专利技术一个实施例的用于细分使用业务术语表中的术语分类的资产的方法。图5示出根据本专利技术一个实施例的用于评估使用图4的方法细分的资产分类的方法。图6示出根据本专利技术一个实施例的示例性业务术语表的一部分。图7示出根据本专利技术一个实施例的用于细分使用业务术语表的术语分类或归类的资产的示例性本体的一部分。图8示出根据本专利技术一个实施例的用于提供分类细分工具的示例性计算系统。具体实施方式本专利技术的实施例提供用于细分使用业务术语表的术语分类或归类的资产的手工分类的方法。在一个实施例中,语义细分机构用于细分这种资产的手工分类,以及随后评估细分的资产分类。另外,细分的资产分类可用作机器学习分类器的训练集。使用细分的资产分类训练机器学习分类器得到可用于更准确地执行自动资产分类的分类器。这样做允许数据集更迅速地合并到共同业务术语表中。细分的分类的集合也可由各种业务分析工具用来在各种度量上分析和评估组织。在一个实施例中,语义细分机构接收由管理员(或其他用户)手工分类的一组资产。管理员基于描述资产的一组元数据属性把来自业务术语表的术语分配给资产。例如,数据库可以为由管理员分类的每个资产提供一行属性。另外,可用于描述资产的属性的范围可使用本体而彼此相关。在一个实施例中,语义细分机构可评估分配给给定资产的分类以决定是否细分该分类,即,决定是否应该使用来自业务术语表的更具体的术语对该资产进行分类。如以下更详细所述,例如,假设管理员已把手工分类分配给第一资产。在这种情况下,如果语义细分机构确定(i)存在分配给另一资产的分类,该分类是分配给第一资产的分类的子孙,和(ii)第一资产的每个属性与使用子孙术语分类的资产中的对应属性相比在本体中处于更低的级别,和(iii)分配给执行正被评估的资产的分类的用户的权重的差异超过可调谐的阈值,则第一资产的分类可以被细分至更具体的分类。在一个实施例中,概率分布可用于最终选择满足以上列出的条件的资产的分类的细分。如以下更详细所述,更可能的分类(即,原始分类或者使用以上条件识别的潜在的细分)可以被选择,比如已由许多用户手工分配的分类,导致该分类在概率分布中的更高的计数。然而,为了决定细分分配给第一资产的分类究竟是否有意义,该分类需要满足以上列出的条件。这些条件确保正被评估的资产类似于以前在更专业的分类下分类的资产。业务术语表可自己随着时间提供把资产分配和重新分配给术语的演进数据集。例如,由企业进行的新的收购可导致业务术语表中的成千的新的业务定义以及使用这些术语分类的一组资产。相反,子组织的转让能够导致业务术语表中的许多术语的废止(sunset)。在这些情况下,语义细分机构可在共同业务术语表下促进分配给正被合并的资产的分类的细分(或者在原始分类已从业务术语表废止并且新的手工分类已发生之后细分分配给术语的新的分类)。另外,启用反馈的加权校准本文档来自技高网
...
用于改进信息资产的分类的细分和校准方法和系统

【技术保护点】
一种用于细分资产分类的计算机实现的方法,该方法包括:接收多个资产,每个资产具有从业务术语表选择的术语的分类,其中业务术语表提供在组织内使用的术语的受控词汇表的层级结构,并且其中每个资产的特征在于使用从领域本体选择的一组属性的数据库记录;通过一个或多个计算机处理器的操作,针对一组细分准则评估分配给所述多个资产中的每一个资产的分类;以及细分分配给至少第一资产的分类,其中第一资产满足所述一组细分准则。

【技术特征摘要】
2011.09.30 US 13/249,9531.一种用于细分资产分类的计算机实现的方法,该方法包括:接收多个资产,每个资产具有从业务术语表选择的术语的分类,其中业务术语表提供在组织内使用的术语的受控词汇表的层级结构,并且其中每个资产的特征在于使用从领域本体选择的一组属性的数据库记录;通过一个或多个计算机处理器的操作,针对一组细分准则评估分配给所述多个资产中的每一个资产的分类;以及细分分配给至少第一资产的分类,其中第一资产满足所述一组细分准则,其中细分准则包括:确定第二资产的分类是分配给业务术语表中的第一资产的分类的子孙,并且相对于本体,第二资产的每个属性具有比第一资产中的对应属性更一般性的值。2.如权利要求1所述的方法,还包括:存储对第一资产和至少第二资产的参考,其中根据所述一组细分准则,第二资产有助于第一资产的细分。3.如权利要求2所述的方法,还包括:基于确定第二资产已被重新分类,通过一个或多个计算机处理器的操作,针对所述细分准则重新评估分配给第一资产的细分的分类。4.如权利要求3所述的方法,还包括:如果第一资产不再满足所述一组细分准则,则撤销分配给第一资产的细分的分类。5.如权利要求3所述的方法,还包括:比较分配给为第二资产分配分类的用户的权重与分配给对第二资产进行重新分类的用户的权重;如果为第二资产分配分类的用户的权重超出分配给对第二资产进行重新分类的用户的权重达到指定阈值,则撤销第二资产的细分的分类;以及如果为第二资产分配分类的用户的权重超出分配给对第二资产进行重新分类的用户的权重未达到指定阈值,则保留第二资产的细分的分类。6.如权利要求2所述的方法,还包括:存储用户上下文,并基于为所述多个资产之一分配分类的每个用户的分配的可信性分配初始加权方案。7.如权利要求1所述的方法,还包括:基于分配给所述多个资产的分类并且还基于分配给第一资产的细分的分类,训练机器学习分类器。8.一种计算系统,包括:处理器...

【专利技术属性】
技术研发人员:S·邦迪C·K·尚克C·D·沃尔夫森
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1