【技术实现步骤摘要】
【国外来华专利技术】信息处理系统、函数创建方法和函数创建程序
本专利技术涉及信息处理系统、描述符创建方法和描述符创建程序,用以生成学习或预测中使用的特征。
技术介绍
数据挖掘是一种从大量信息中发现迄今为止未知的有用知识的技术。将数据挖掘应用于特定示例的过程大致可以分为以下三个阶段。第一阶段(步骤)是“预处理阶段”。“预处理阶段”是这样的阶段:为了有效运行数据挖掘算法,处理输入到根据数据挖掘算法操作的设备等中的属性(特征)以将属性转换为新属性。第二阶段是“分析处理阶段”。“分析处理阶段”是这样的阶段:将属性输入到根据数据挖掘算法操作的设备等中,并且获得从根据数据挖掘算法操作的设备等输出的分析结果。第三阶段是“后处理阶段”。“后处理阶段”是这样的阶段:将分析结果转换为易于查看的图表、待输入到另一设备的控制信号等。为了通过数据挖掘获得有用的知识,需要适当地执行“预处理阶段”。设计如何执行“预处理阶段”的工作依赖于分析技术的有经验的技术人员(数据科学家)的技能。预处理阶段的设计工作没有得到信息处理技术的全面支持,仍然极大地依赖于有经验的技术人员的手工工作的尝试错误法。为了找到未知的有用知识,重要的是要生成更多的属性候选。详细地,重要的是为可能影响作为预测对象的变量(目标变量)的属性(解释性变量)生成更多的候选。生成更多的候选会增加在候选中包含有助于预测的属性的可能性。例如,专利文献(PTL)1描述了生成多个属性的方法。在PTL1中描述的方法从一个数据集中选择多个属性并且生成新的属性,所述数据集使得诸如身高、体重和啤酒的年消耗之类的属性与多个人的标识符相关联。引文列表专利文献PTL1: ...
【技术保护点】
1.一种信息处理系统,包括:表格存储单元,其存储包括目标变量的第一表格和在粒度上与所述第一表格不同的第二表格;以及描述符创建单元,其从所述第一表格和所述第二表格创建特征描述符,用以生成作为能够影响所述目标变量的变量的特征,其中所述描述符创建单元通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于针对每个目标变量归约被包含于所述第二表格中的每列的数据的归约方法。
【技术特征摘要】
【国外来华专利技术】2015.11.25 US 62/2598961.一种信息处理系统,包括:表格存储单元,其存储包括目标变量的第一表格和在粒度上与所述第一表格不同的第二表格;以及描述符创建单元,其从所述第一表格和所述第二表格创建特征描述符,用以生成作为能够影响所述目标变量的变量的特征,其中所述描述符创建单元通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于针对每个目标变量归约被包含于所述第二表格中的每列的数据的归约方法。2.根据权利要求1所述的信息处理系统,其中所述描述符创建单元通过生成过滤条件元素、所述映射条件元素和所述归约方法元素的组合来创建所述多个特征描述符中的每个特征描述符,所述过滤条件元素包括指示用于被包含于所述第二表格中的行的过滤条件的条件表达式,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的所述映射条件,并且所述归约方法元素指示用于针对每个目标变量归约被包含于所述第二表格中的每列的所述数据的所述归约方法。3.根据权利要求2所述的信息处理系统,包括:过滤条件生成单元,其通过组合原子条件表达式来生成多个条件表达式,所述原子条件表达式中的每个原子条件表达式是被包含于由所述过滤条件元素指示的所述过滤条件中的条件表达式,其中所述过滤条件生成单元生成所述多个条件表达式,所述多个条件表达式中的每个条件表达式通过组合数目小于或等于由指定的最大长度所指示的数目的原子条件表达式来获得,并且其中所述描述符创建单元使用所生成的所述条件表达式中的每一个作为所述过滤条件元素,来创建所述特征描述符。4.根据权利要求2或3所述的信息处理系统,其中所述描述符创建单元创建所述特征描述符,所述特征描述符中的每一个用于基于由所述过滤条件元素指定的所述过滤条件来执行过滤一个或多个行的过程,通过由所述映射条件元素指定的所述映射条件来执行映射所述第一表格和所述第二表格的过程,以及基于由所述归约方法元素指定的所述归约方法来执行归约所述第二表格中的行的过程。5.根据权利要求2至4中任一项所述的信息处理系统,其中所述描述符创建单元通过选择由所述过滤条件元素指示的一个过滤条件、由所述映射条件元素指示的一个映射条件、以及由所述归约方法元素指示的一个归约方法,并组合所选的所述条件表达式、所述映射条件和所述归约方法,来创建所述多个特征描述符中的每一个。6.根据权利要求2至5中任一项所述的信息处理系统,其中所述过滤条件元素由用于所述第二表格中的列的条件表达式和所述条件表达式的最...
【专利技术属性】
技术研发人员:楠村幸贵,藤卷辽平,
申请(专利权)人:日本电气株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。