支持分类规则创建的方法和装置制造方法及图纸

技术编号:2845060 阅读:207 留言:0更新日期:2012-04-11 18:40
支持分类规则创建的方法和装置。本发明专利技术恰当地支持为新数据项创建分类规则。该方法包括以下步骤:将新数据项和新数据项的类别存储到存储部中;从存储在正确答案数据存储部中的数据提取各包括一条件和对应类别的多个特征模式,并且将所述特征模式存储到特征模式存储部中,所述条件包括存储在存储部中的新数据项的特征元素,所述正确答案数据存储部存储多个数据项和这些数据项的类别;以及将存储在所述特征模式存储部中的特征模式分组为第一集合和第二集合,并将分组结果存储在分组数据存储部中,第一集合的特征模式与存储在所述存储部中的新数据项的类别相匹配,而第二集合的特征模式与所述新数据项的类别不匹配。从而,自动生成作为候选分类规则的特征模式,此外,能够从第一集合中选择特定特征模式作为此后应用的分类规则。

【技术实现步骤摘要】

本专利技术涉及一种支持创建与数据项相对应的分类规则的方法。
技术介绍
传统上,当根据用户创建的分类规则对数据项进行分类时,存在如下问题(1)当添加数据时添加和/或修改规则通常,逐一添加待分类数据项。在这种情况下,由于不能只根据预先创建的分类规则对待添加数据项进行分类,所以需要随时添加新规则和/或修改现有规则。然而,创建有效的分类规则并不容易。(2)分类规则与分类数据项之间的一致性在将多个数据项归类到与先前类别不同的类别中时,由于对规则进行了添加和/或修改,所以该规则与经分类数据项不一致并将该规则称为不一致规则。在根据预定义类别树对数据项进行分类的目录类型检索业务(directory type search service)中,希望具有保证分类结果在更新规则库之前和更新规则库之后相同的装置。为了解决该问题,验证是否根据所添加和/或修改的规则将已分类数据项归类到与先前所识别的类别相同的类别中,即,验证是否存在不一致性。如果存在不一致性,则对所添加和/或修改的规则进行反复修改,直到消除不一致性。用于该验证的成本很高,因此希望开发一种自动生成没有不一致性的规则的技术。(3)分类规则之间的一致性存在其中根据所添加和/或修改的规则以及其它规则将已知数据项归类到不同类别的情况,即,创建了冲突规则的情况。例如,根据“如果满足P和Q,则将其归类到C1”的第一规则和“如果满足P和R,则将其归类到C2”的第二规则,将满足“P、Q以及R”的数据项分别归类到C1和C2。如果C1与C2不同,则第一规则与第二规则为冲突规则。由于规则库应当最终将各数据项归类到单一类别,所以当发生冲突时,需要一种解决冲突的装置。因此,已知一种预先确定规则评估顺序并且随后使用最先匹配的规则来确定分类目标的类别的方法(第一匹配方法)。然而,如果存在多个冲突规则,则规则应用顺序将强烈影响分类目标的类别,因此难以确定各单独规则的有效性。因此,重要的是防止冲突规则的创建,但是这通常难以实现。此外,例如,JP-A-2002-157262公开了如下一种技术,该技术用于在分类系统客观并且复杂的情况下为用户提供用于对用户想要登记的分类规则的有效性进行评价的信息。更具体地,在一种支持在用于基于分类规则将电子文档归类到多个类别中的文档分类系统中定义分类规则的方法中,通过将由用户通过输入设备输入的分类规则应用于多个经分类电子文档,来计算所应用的分类规则的可靠度和对分类准确度的提高或维持的贡献度,并将计算结果通过输出设备通知给用户。然而,该系统不具有生成候选分类规则的功能。因此,用户必须精通分类系统和这些电子文档的特征,而不熟练的用户很难创建分类规则。此外,仅考虑新创建的规则可能会导致与已有规则的冲突。但是,此公报没有考虑该问题。如上所述,根据
技术介绍
,很难为新数据项生成适当的分类规则,并且很难解决与已有分类规则的冲突。
技术实现思路
因此,本专利技术一个目的是提供一种支持对新数据项适当地创建分类规则的方法。根据本专利技术的支持创建分类规则的方法包括以下步骤将新数据项和新数据项的类别存储到存储部中;从存储在正确答案数据存储部中的数据提取各包括一个条件和对应类别的多个特征模式,并且将所述特征模式存储到特征模式存储部中,所述条件包括存储在存储部中的新数据项的特征元素,所述正确答案数据存储部存储多个数据项和这些数据项的类别;以及将存储在所述特征模式存储部中的特征模式分组为第一集合和第二集合,并将分组结果存储在分组数据存储部中,第一集合的特征模式与存储在所述存储部中的新数据项的类别相匹配,而第二集合的特征模式与所述新数据项的类别不匹配。从而,自动生成作为候选分类规则的特征模式,此外,能够从第一集合中选择特定特征模式作为此后应用的分类规则。此外,根据本专利技术的方法可以包括以下步骤从分类规则存储部提取其条件部分满足存储在所述存储部中的新数据项的分类规则,并将提取的分类规则存储到提取分类规则存储部中,所述分类规则存储部存储多个分类规则,每个分类规则都由数据项的条件部分和对应类别组成。此外,第一集合可以具有第一组和第二组。所述第一组可以是存储在特征模式存储部中的分别包括第一特定条件和与存储在所述存储部中的新数据项的类别相匹配的类别的特征模式组。所述提取分类规则存储部可以存储满足所述第一特定条件的分类规则。第二组可以是不包括在任意第一组中的特征模式的组。此外,第二集合可以包括存储在所述特征模式存储部中的如下特征模式的第三组,即,所述特征模式分别包括第二特定条件和与存储在所述存储部中的新数据项的类别不同的类别。所述提取分类规则存储部可以存储满足所述第二特定条件的分类规则。因此,可以按照经排列的形式呈现特征模式的属性和关联、与存储在分类规则存储部中的分类规则的关联等。此外,通过这种呈现,还可以解决冲突。此外,上述分组步骤可以包括生成分类规则的第四组的步骤,所述分类规则存储在所述提取分类规则存储部中并与第一组相对应。此外,根据本专利技术的方法进一步包括以下步骤确定包括在第一组中的特征模式的数目是否满足涉及包括在与第一组相关联的第三组中的特征模式数目的条件;将包括在第一组中的特征模式的条件改变成包括取反规则的条件;以及,如果包括在第三组中的特征模式的数目满足涉及包括在与第三组相关联的第一组中的特征模式数目的条件,则将包括在第三组中的特征模式的条件改变成包括取反规则的条件。通过执行这种处理,减少了规则数目并可以构造用户容易理解的规则库。另外,可预期未来的通过使条件部分满足将来添加的数据项(例如,产品数据)的求反而简化的规则的效率。此外,根据本专利技术的方法进一步包括以下步骤根据包括在所述第一集合、所述第二集合以及一第三集合中的各特征模式的特征元素计算特征模式的分数,并且将该分数与所述特征模式相关联地存储在所述分组数据存储部中,所述第三集合是从存储在所述提取分类规则存储部中的所有分类规则中排除了包括在第四组中的分类规则的集合。从而,可以确定要呈现给用户的优先级或要作为分类规则采用的优先级。此外,根据本专利技术的方法进一步包括以下步骤向用户呈现包括在第一集合中的特征模式;从该用户接受对该特征模式的指定;将指定的特征模式存储到所述分类规则存储部中;识别与包括该指定特征模式的第一组相关联的第三组,并将包括在所识别的第三组中的特征模式存储到所述分类规则存储部中;以及识别与包括该指定特征模式的第一组对应的第四组,并从所述分类规则存储部去除包括在该第四组中的分类规则。从而,可以正确地更新分类规则存储部。此外,根据本专利技术的方法进一步包括以下步骤按存储在分组数据存储部中的特征模式的分数的降序,将存储在该分组数据存储部中的特征模式作为新分类规则登记到分类规则存储部中,直到随着存储在正确答案存储部中的数据项的误分类的发生次数而变化并预先对其定义公式的错误率增加为止。从而,可以自动生成新分类规则。可以创建用于使计算机执行根据本专利技术的上述方法的程序,并将该程序存储在诸如软盘、CD-ROM、光磁盘、半导体存储器以及硬盘的存储介质或存储装置中。此外,可以通过网络以数字信号发布该程序。另外,将中间处理结果临时存储在诸如主存储器的存储装置中。附图说明图1是本专利技术的实施例的框图;图2是示出存储在正确答案数据DB中的数据示例的图; 图3是示出存储在分本文档来自技高网
...

【技术保护点】
一种支持创建分类规则的方法,其包括以下步骤:    将新数据项和所述新数据项的类别存储到存储部中;    从存储在正确答案数据存储部中的数据提取各包括一个条件和对应类别的特征模式,并且将所提取的特征模式存储到特征模式存储部中,所述条件包括存储在所述存储部中的所述新数据项的特征元素,所述正确答案数据存储部存储数据项和所述数据项的类别;以及    将存储在所述特征模式存储部中的特征模式分组为第一集合和第二集合,并将分组结果存储在分组数据存储部中,第一集合的特征模式与存储在所述存储部中的所述新数据项的所述类别相匹配,而第二集合的特征模式与所述新数据项的所述类别不匹配。

【技术特征摘要】
JP 2005-8-19 2005-2391941.一种支持创建分类规则的方法,其包括以下步骤将新数据项和所述新数据项的类别存储到存储部中;从存储在正确答案数据存储部中的数据提取各包括一个条件和对应类别的特征模式,并且将所提取的特征模式存储到特征模式存储部中,所述条件包括存储在所述存储部中的所述新数据项的特征元素,所述正确答案数据存储部存储数据项和所述数据项的类别;以及将存储在所述特征模式存储部中的特征模式分组为第一集合和第二集合,并将分组结果存储在分组数据存储部中,第一集合的特征模式与存储在所述存储部中的所述新数据项的所述类别相匹配,而第二集合的特征模式与所述新数据项的所述类别不匹配。2.如权利要求1所述的方法,其还包括以下步骤从分类规则存储部提取其条件部分满足存储在所述存储部中的所述新数据项的分类规则,并将提取的分类规则存储到提取分类规则存储部中,所述分类规则存储部存储多个分类规则,每个分类规则都由所述数据项的条件部分和对应类别组成,并且其中,所述第一集合具有第一组和第二组,所述第一组是如下特征模式的组,即,所述特征模式存储在所述特征模式存储部中,并且分别包括第一特定条件和与存储在所述存储部中的所述新数据项的所述类别相匹配的类别,所述提取分类规则存储部存储满足所述第一特定条件的分类规则,所述第二组是如下特征模式的组,即,所述特征模式不包括在所述第一组中的任何一个中,所述第二集合包括如下特征模式的第三组,即,所述特征模式存储在所述特征模式存储部中,并且分别包括第二特定条件和与存储在所述存储部中的所述新数据项的所述类别不同的类别,并且所述提取分类规则存储部存储满足所述第二特定条件的分类规则。3.如权利要求2所述的方法,其中,所述分组步骤包括以下步骤生成存储在所述提取分类规则存储部中并对应于第一组的分类规则的第四组。4.如权利要求2所述的方法,其进一步包括以下步骤检测包括在所述第一组中的特征模式的数目是否满足涉及包括在与所述第一组相关联的所述第三组中的特征模式的所述数目的条件;和基于所述检测步骤,将包括在所述第一组中的所述特征模式的条件改变成包括取反规则的条件。5.如权利要求2所述的方法,其进一步包括以下步骤检测包括在所述第一组中的特征模式的数目是否满足涉及包括在与所述第一组相关联的所述第三组中的特征模式的所述数目的条件;基于所述检测步骤,将包括在所述第一组中的所述特征模式的条件改变成包括取反规则的条件;检测包括在所述第三组中的特征模式的数目是否满足涉及包括在与所述第三组相关联的所述第一组中的特征模式的所述数目的条件;以及基于所述检测步骤,将包括在所述第三组中的所述特征模式的条件改变成包括取反规则的条件。6.如权利要求2所述的方法,其进一步包括以下步骤根据包括在所述第一集合中的各所述特征模式的特征元素计算所述特征模式的分数,并将所述分数与所述特征模式相关联地存储到所述分组数据存储部中。7.如权利要求5所述的方法,其进一步包括以下步骤根据包括在所述第一集合、所述第二集合以及一第三集合中的各所述特征模式的特征元素计算所述特征模式的分数,并将所述分数与所述特征模式相关联地存储到所述分组数据存储部中,所述第三集合是从存储在所述提取分类规则存储部中的全部所述分类规则排除掉包括在所述第四组中的所述分类规则的集合。8.如权利要求5所述的方法,其进一步包括以下步骤从所述分类规则存储部去除包括在所述第四组中的所述分类规则;和将包括在与所述第四组相关联的所述第三组中的所述特征模式存储到所述分类规则存储部中。9.如权利要求3所述的方法,其进一步包括以下步骤向用户呈现包括在所述第一集合中的所述特征模式;从所述用户接受对所述特征模式的指定;将指定特征模式存储到所述分类规则存储部中;识别与包括所述指定特征模式的所述第一组相关联的所述第三组,并将包括在所识别的第三组中的所述特征模式存储到所述分类规则存储部中;以及识别与包括所述指定特征模式的所述第一组相对应的所述第四组,并从所述分类规则存储部去除包括在所述识别的第四组中的所述分类规则。10.如权利要求3所述的方法,其进一步包括以下步骤从所述分类规...

【专利技术属性】
技术研发人员:稻越宏弥内野宽治井上大悟半野宏和
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1