模式搜索程序、模式搜索装置以及模式搜索方法制造方法及图纸

技术编号:33212756 阅读:17 留言:0更新日期:2022-04-27 16:49
本发明专利技术提供模式搜索程序、模式搜索装置以及模式搜索方法。基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性,根据基于决定的优先级的搜索顺序,来进行多个属性模式中的每个属性模式是否是显露模式的判定,在进行判定的处理中,在第一属性模式在多个样本中的出现频率为第二属性模式在多个样本中的出现频率以上的情况下,不进行有关第一属性模式的判定,其中,第二属性模式具有第一属性模式所包含的属性中的除了优先级最低的属性以外的所有属性。先级最低的属性以外的所有属性。先级最低的属性以外的所有属性。

【技术实现步骤摘要】
【国外来华专利技术】模式搜索程序、模式搜索装置以及模式搜索方法


[0001]本专利技术涉及模式搜索程序、模式搜索装置以及模式搜索方法。

技术介绍

[0002]近年来,正在积极开展通过解析收集到的数据来发现新的见解的数据挖掘。在这样的数据挖掘中,例如,通过从分别具有属性的多个数据中提取符合规定条件的数据,并且,确定在提取出的数据间共有的特征性的趋势,来发现新的见解。
[0003]具体而言,在如上述这样的数据挖掘中,例如,通过提取在满足目标条件的数据中出现频率较高,并且,在不满足目标条件的数据中出现频率较低的属性模式(以下,也称为显露模式(Emerging pattern)),来发现新的见解(例如,参照非专利文献1)。
[0004]非专利文献1:A.M.Garcia

Vico et al.,“An overview of emerging pattern mining in supervised descriptive rule discovery:taxonomy,empirical study,trends,and prospects”,WIREs Data Mining and Knowledge Discovery 2018,8:e1231.doi:10.1002/widm.1231
[0005]在这里,在如上述这样的数据挖掘中,存在根据解析结果的用途等,在从数据的收集到解析的时间上设置制约的情况。另外,在数据挖掘中进行解析的数据量呈逐年增加的趋势。因此,如上述这样的数据挖掘的实施需要尽可能高效地进行。
[0006]然而,在数据挖掘中进行的显露模式的提取一般而言是计算处理的成本较高的处理,且存在从数据的收集到解析需要长时间的情况。因此,在进行数据解析的企业、研究机构等,需要降低提取显露模式所需的计算处理成本。

技术实现思路

[0007]因此,在一个侧面,本专利技术的目的在于提供一种能够降低提取显露模式所需的计算处理成本的模式搜索程序、模式搜索装置以及模式搜索方法。
[0008]在实施方式的一个方式中,使计算机执行如下处理:基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定上述多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性;以及根据基于决定的上述优先级的搜索顺序,来进行上述多个属性模式中的每个属性模式是否是显露模式的判定,在进行上述判定的处理中,在第一属性模式在上述多个样本中的出现频率为第二属性模式在上述多个样本中的出现频率以上的情况下,不进行有关上述第一属性模式的上述判定,其中,上述第二属性模式具有上述第一属性模式所包含的属性中的除了上述优先级最低的属性以外的所有属性。
[0009]根据一个侧面,能够降低提取显露模式所需的计算处理成本。
附图说明
[0010]图1是对信息处理系统10的结构进行说明的图。
[0011]图2是对信息处理装置1的硬件结构进行说明的图。
[0012]图3是信息处理装置1的功能的框图。
[0013]图4是对第一实施方式中的模式搜索处理进行说明的流程图。
[0014]图5是对第一实施方式中的模式搜索处理进行说明的流程图。
[0015]图6是对第一实施方式中的模式搜索处理进行说明的流程图。
[0016]图7是对第一实施方式中的模式搜索处理进行说明的流程图。
[0017]图8是对第一实施方式中的模式搜索处理进行说明的流程图。
[0018]图9是对第一实施方式中的模式搜索处理进行说明的流程图。
[0019]图10是对第一实施方式中的模式搜索处理进行说明的流程图。
[0020]图11是对第一实施方式中的模式搜索处理进行说明的流程图。
[0021]图12是对第一实施方式中的模式搜索处理进行说明的流程图。
[0022]图13是对数据集D的具体例进行说明的图。
[0023]图14是对包含数据集D中的属性模式的出现集合以及出现频率的表的具体例进行说明的图。
[0024]图15是对S12和S13的处理的具体例进行说明的图。
[0025]图16是对在图6至图8中说明的模式判定处理的具体例进行说明的图。
[0026]图17是对在图6至图8中说明的模式判定处理的具体例进行说明的图。
[0027]图18是对数据集D的具体例进行说明的图。
[0028]图19是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
[0029]图20是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
[0030]图21是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
[0031]图22是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
[0032]图23是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
[0033]图24是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
具体实施方式
[0034][信息处理系统的结构][0035]首先,对信息处理系统10的结构进行说明。图1是对信息处理系统10的结构进行说明的图。
[0036]如图1所示,信息处理系统10例如包含信息处理装置1和操作终端2。信息处理装置1经由因特网等网络NW与操作终端2连接。
[0037]在图1所示的例子中,信息处理装置1例如进行有关经由操作终端2输入的多个数据(以下,也称为多个样本)所包含的属性模式中的每个属性模式是否是显露模式的判定。
[0038]具体而言,本实施方式中的信息处理装置1基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性。而且,信息处理装置1根据基于决定的优先级的搜索顺序,来进行多个属性模式中的每个属性模式是否是显露模式的判定。应予说明,本实施方式中的显露模式(Emerging pattern)是指在满足目标条件的数据中出现的频率较高,并且,在不满足目标条件的数据中出现的频率较低的属性模式。
[0039]在这里,每当进行各属性模式是否是显露模式的判定(以下,也仅称为判定),信息处理装置1就判定属性模式(以下,也称为第一属性模式)在多个样本中的出现频率是否为具有第一属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式(以下,也称为第二属性模式)在多个样本中的出现频率以上。而且,在与第一属性模式对应的出现频率为与第二属性模式对应的出现频率以上的情况下,信息处理装置1不进行第一属性模式的判定。
[0040]即,在第一属性模式的出现频率不低于第二属性模式的出现频率的情况下,本实施方式中的信息处理装置1判定为第一属性模式不是未包含其他显露模式的显露模式(以下,也称为极小的显露模式)。因此,在提取极小的显露模式是处理目的的情况下,信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种模式搜索程序,其特征在于,使计算机执行如下处理:基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定上述多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性;以及根据基于决定的上述优先级的搜索顺序,来进行上述多个属性模式中的每个属性模式是否是显露模式的判定,在进行上述判定的处理中,在第一属性模式在上述多个样本中的出现频率为第二属性模式在上述多个样本中的出现频率以上的情况下,不进行有关上述第一属性模式的上述判定,其中,上述第二属性模式具有上述第一属性模式所包含的属性中的除了上述优先级最低的属性以外的所有属性。2.根据权利要求1所述的模式搜索程序,其特征在于,在决定上述优先级的处理中,对于具有上述包含关系的每两个属性,分别生成从上述出现集合较小的属性朝向上述出现集合较大的属性的有向边,根据所生成的每个上述有向边来生成有向无环图,基于所生成的上述有向无环图,来决定上述多个属性模式所包含的各属性的优先级。3.根据权利要求2所述的模式搜索程序,其特征在于,在决定上述优先级的处理中,参照上述有向无环图,以每个上述有向边中的输出源的属性成为比输出目的地的属性靠前的顺序的方式,来决定上述多个属性模式所包含的各属性的优先级。4.根据权利要求3所述的模式搜索程序,其特征在于,在进行上述判定的处理中,以各属性模式所包含的属性成为按照上述优先级的字典式顺序的方式,来决定上述多个属性模式的搜索顺序。5.根据权利要求4所述的模式搜索程序,其特征在于,上述多个属性模式包括不包含上述属性的属性模式,在进行上述判定的处理中,以不包含上述属性的属性模式的搜索顺序成为最早的方式,来决定上述多个属性模式的搜索顺序。6.根据权利要求1所述的模式搜索程序,其特征在于,在决定上述优先级的处理中,基于有关上述多个属性模式所包含的各属性的在上述多个样本中的出现频率,来决定上述多个属性模式所包含的各属性的优先级。7.根据权利要求6所述的模式搜索程序,其特征在于,在决定上述优先级的处理中,以在上述多个样本中的出现频率更大的属性的优先级成为更高的方式,来决定上述多个属性模式所包含的各属性的优先级。8.根据权利要求1所述的模式搜索程序,其特征在于,在进行上述判定的处理中,在上述第一属性模式在上述多个样本中的出现频...

【专利技术属性】
技术研发人员:岩下洋哲
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1