信息处理系统、函数创建方法和函数创建程序技术方案

技术编号:18609955 阅读:30 留言:0更新日期:2018-08-04 22:55
表格存储单元81存储包括目标变量的第一表格和在粒度上与第一表格不同的第二表格。功能创建单元82根据第一表格和第二表格创建特征量生成函数,以用于生成作为可以影响目标变量的变量的特征量。函数创建单元82通过生成对应条件元素和聚合方法元素的组合来创建多个特征量生成函数中的每一个特征量生成函数,对应条件元素指示用于第一表格和第二表中格的行的对应条件,聚合方法元素指示针对每个目标变量用于聚合包含于第二表格中的每列中的数据的聚合方法。

【技术实现步骤摘要】
【国外来华专利技术】信息处理系统、函数创建方法和函数创建程序
本专利技术涉及信息处理系统、描述符创建方法和描述符创建程序,用以生成学习或预测中使用的特征。
技术介绍
数据挖掘是一种从大量信息中发现迄今为止未知的有用知识的技术。将数据挖掘应用于特定示例的过程大致可以分为以下三个阶段。第一阶段(步骤)是“预处理阶段”。“预处理阶段”是这样的阶段:为了有效运行数据挖掘算法,处理输入到根据数据挖掘算法操作的设备等中的属性(特征)以将属性转换为新属性。第二阶段是“分析处理阶段”。“分析处理阶段”是这样的阶段:将属性输入到根据数据挖掘算法操作的设备等中,并且获得从根据数据挖掘算法操作的设备等输出的分析结果。第三阶段是“后处理阶段”。“后处理阶段”是这样的阶段:将分析结果转换为易于查看的图表、待输入到另一设备的控制信号等。为了通过数据挖掘获得有用的知识,需要适当地执行“预处理阶段”。设计如何执行“预处理阶段”的工作依赖于分析技术的有经验的技术人员(数据科学家)的技能。预处理阶段的设计工作没有得到信息处理技术的全面支持,仍然极大地依赖于有经验的技术人员的手工工作的尝试错误法。为了找到未知的有用知识,重要的是要生成更多的属性候选。详细地,重要的是为可能影响作为预测对象的变量(目标变量)的属性(解释性变量)生成更多的候选。生成更多的候选会增加在候选中包含有助于预测的属性的可能性。例如,专利文献(PTL)1描述了生成多个属性的方法。在PTL1中描述的方法从一个数据集中选择多个属性并且生成新的属性,所述数据集使得诸如身高、体重和啤酒的年消耗之类的属性与多个人的标识符相关联。引文列表专利文献PTL1:国际专利申请公开号2015/045318。
技术实现思路
技术问题利用PTL1中描述的方法,使用诸如作为示例描述的数据集的一组表格数据生成多个属性候选。然而,本专利技术人认为,为了生成许多属性候选,优选的是不仅使用一组表格数据而且使用多组表格数据。这是因为使用各种表格数据能够生成更多的属性候选。注意,“属性”也被称为“特征”。然而,对于一个预测对象,所有组的表格数据很少具有相同的粒度。详细地,由于每组表格数据取决于所收集的数据的性质而在内容上有所不同,因此存在具有用于每个预测对象的多个对应行的表格数据以及其中与预测对象的对应关系不明显的表格数据。因此,通过简单地使用多组表格数据来生成特征并不容易。还存在一个技术问题,即对于有经验的技术人员来说,要为待生成的每个特征定义处理方法需要巨大的劳力。鉴于这些情况,即使在使用多组表格数据的情况下,也希望能够高效地生成许多特征候选。因此,本专利技术的目的是提供一种信息处理系统、描述符创建方法和描述符创建程序,其能够使用多组表格数据有效地生成许多特征候选项。问题的解决方案根据本专利技术的一种信息处理系统包括:表格存储单元,用于存储包括目标变量的第一表格和包括在粒度上与第一表格中包括的数据不同的数据的第二表格;以及描述符创建单元,用于从第一表格中的数据和第二表格中的数据创建特征描述符,以用于生成作为能够影响目标变量的变量的特征;其中所述描述符创建单元通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于所述第一表格和第二表格中的行的映射条件,归约方法元素指示针对每个目标变量归约包含于第二表格中的数据的归约方法。根据本专利技术的一种描述符创建方法,包括:从包括目标变量的第一表格和包括在粒度上与第一表格中所包括的数据不同的数据的第二表格,来创建特征描述符,以用于生成作为能够影响目标变量的变量的特征;其中在创建特征描述符时,通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于所述第一表格和第二表格中的行的映射条件,归约方法元素指示针对每个目标变量归约包含于第二表格中的数据的归约方法。根据本专利技术的一种描述符创建程序,用于使得计算机执行描述符创建过程,描述符创建过程从包括目标变量的第一表格和包括在粒度上与第一表格中所包括的数据不同的数据的第二表格来创建特征描述符,以用于生成作为能够影响目标变量的变量的特征;其中在描述符创建过程中,通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于所述第一表格和第二表格中的行的映射条件,归约方法元素指示针对每个目标变量归约包含于第二表格中的数据的归约方法。专利技术的有益效果根据本专利技术,通过上述技术手段实现了使用多组表格数据有效地生成许多特征候选的技术有利效果。附图说明图1是描述根据本专利技术的信息处理系统的示例性实施例1的结构的示例的框图。图2是描绘由每个元素表示的过程的例子的说明图。图3是描绘示例性实施例1中的信息处理系统的操作的示例的流程图。图4是描绘用于创建特征描述符的信息的示例的说明图。图5是描绘示例性实施例1中创建特征描述符的操作的示例的流程图。图6是描绘生成SQL语句的过程的示例的说明图。图7是描绘根据本专利技术的信息处理系统的示例性实施例2的结构的示例的框图。图8是描绘生成多个条件表达式的过程的示例的说明图。图9是描绘示例性实施例2中的创建特征描述符的操作的示例的流程图。图10是描绘根据本专利技术的信息处理系统的概况的框图。图11是描绘根据至少一个示例性实施例的计算机的结构的示意性框图。具体实施方式下面参考附图描述本专利技术的示例性实施例。在以下描述中,简单术语“数据”表示包含于表格中的每个单元的内容,并且术语“表格数据”表示包含于表格中的全部数据。示例性实施例1图1是描述根据本专利技术的信息处理系统的示例性实施例1的结构的示例的框图。该示例性实施例中的信息处理系统包括存储单元11、输入单元12和描述符创建单元13。存储单元11存储表格(下文也成为“第一表格”)和包含于第一表格中的一组数据(以下也称为“第一表格数据”),表格包括预测对象(即,目标变量)列。在以下描述中,第一表格被称为“目标表格”。存储单元11还存储与第一表格在粒度上不同的表格(以下也称为“第二表格”)和包含于第二表格中的一组数据(以下也称为“第二表格数据”)。在以下描述中,第二表格被称为“源表格”。第一表格和第二表格各自通过表示数据属性的列的组合来定义。每个表格包括一个或多个行,所述一个或多个行组合指示相应属性的值的数据。“与目标表格(第一表格)在粒度上不同的表格”表示这样的表格:其行与目标表格的行不是一一对应。当生成下述特征描述符时,存储单元11可以不存储第一表格数据和第二表格数据。输入单元12接收下述描述符创建单元13创建特征描述符所需的各种信息。输入单元12可以经由通信网络(未示出)接收信息,或者通过从存储信息的存储设备(未示出)读取信息来接收信息。存储单元11也可以用作该存储设备。利用描述符创建单元13的功能在下面描述由输入单元12接收到的信息。描述符创建单元13使用输入到输入单元12的信息来生成特征描述符。特征描述符是用于从第一表格数据和第二表格数据生成作为可影响目标变量的变量的特征的函数。源表格的数目不限于一个,并且可以是两个或更多个。当使用机器学习生成模型时,生成的特征是解释变量的候选。换句话说,通过使用在本示例性实施例中生成的特征描述符,在使用机器学习生成模型时可以自动生成解释变量的候选。描本文档来自技高网
...

【技术保护点】
1.一种信息处理系统,包括:表格存储单元,其存储包括目标变量的第一表格和在粒度上与所述第一表格不同的第二表格;以及描述符创建单元,其从所述第一表格和所述第二表格创建特征描述符,用以生成作为能够影响所述目标变量的变量的特征,其中所述描述符创建单元通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于针对每个目标变量归约被包含于所述第二表格中的每列的数据的归约方法。

【技术特征摘要】
【国外来华专利技术】2015.11.25 US 62/2598961.一种信息处理系统,包括:表格存储单元,其存储包括目标变量的第一表格和在粒度上与所述第一表格不同的第二表格;以及描述符创建单元,其从所述第一表格和所述第二表格创建特征描述符,用以生成作为能够影响所述目标变量的变量的特征,其中所述描述符创建单元通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于针对每个目标变量归约被包含于所述第二表格中的每列的数据的归约方法。2.根据权利要求1所述的信息处理系统,其中所述描述符创建单元通过生成过滤条件元素、所述映射条件元素和所述归约方法元素的组合来创建所述多个特征描述符中的每个特征描述符,所述过滤条件元素包括指示用于被包含于所述第二表格中的行的过滤条件的条件表达式,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的所述映射条件,并且所述归约方法元素指示用于针对每个目标变量归约被包含于所述第二表格中的每列的所述数据的所述归约方法。3.根据权利要求2所述的信息处理系统,包括:过滤条件生成单元,其通过组合原子条件表达式来生成多个条件表达式,所述原子条件表达式中的每个原子条件表达式是被包含于由所述过滤条件元素指示的所述过滤条件中的条件表达式,其中所述过滤条件生成单元生成所述多个条件表达式,所述多个条件表达式中的每个条件表达式通过组合数目小于或等于由指定的最大长度所指示的数目的原子条件表达式来获得,并且其中所述描述符创建单元使用所生成的所述条件表达式中的每一个作为所述过滤条件元素,来创建所述特征描述符。4.根据权利要求2或3所述的信息处理系统,其中所述描述符创建单元创建所述特征描述符,所述特征描述符中的每一个用于基于由所述过滤条件元素指定的所述过滤条件来执行过滤一个或多个行的过程,通过由所述映射条件元素指定的所述映射条件来执行映射所述第一表格和所述第二表格的过程,以及基于由所述归约方法元素指定的所述归约方法来执行归约所述第二表格中的行的过程。5.根据权利要求2至4中任一项所述的信息处理系统,其中所述描述符创建单元通过选择由所述过滤条件元素指示的一个过滤条件、由所述映射条件元素指示的一个映射条件、以及由所述归约方法元素指示的一个归约方法,并组合所选的所述条件表达式、所述映射条件和所述归约方法,来创建所述多个特征描述符中的每一个。6.根据权利要求2至5中任一项所述的信息处理系统,其中所述过滤条件元素由用于所述第二表格中的列的条件表达式和所述条件表达式的最...

【专利技术属性】
技术研发人员:楠村幸贵藤卷辽平
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1