信息处理设备和信息处理方法技术

技术编号:18895548 阅读:81 留言:0更新日期:2018-09-08 11:27
信息处理设备和信息处理方法。一种信息处理设备包括:获取表示对象中的每个对象的属性的输入数据的单元;生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的属性对应的节点;以及聚类单元,所述聚类单元通过执行在所述二分网络中经由链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。

Information processing equipment and information processing method

Information processing equipment and information processing method. An information processing apparatus includes: a unit for obtaining input data representing attributes of each object in an object; a generating unit for generating a bisection network comprising objects and attributes included in the input data as nodes, and in the bisection network, with the object. A node corresponding to each object is connected to a node corresponding to the attribute of the object via a link; and a clustering unit that performs clustering of the node groups by performing iterative computation of a random process of transfer between the nodes via a link in the sub-network.

【技术实现步骤摘要】
信息处理设备和信息处理方法
本专利技术涉及一种信息处理设备和一种信息处理方法。
技术介绍
通常的做法是从关于对象(分析目标)的原始数据机械地提取该对象的属性值,并使用一组属性值作为表示对象的特征的特征表示。例如,作为文档的特征表示,使用表示该文档中的每个词的出现频率的向量。这是一种众所周知的做法。通常使用执行从原始数据获取的对象的特征表示的聚类(clustering)的分析技术。在根据现有技术的聚类技术中,通常,将从对象的原始数据获取的特征表示视为向量,并且基于向量空间中的特征表示向量之间的距离来执行聚类。在日本特开第2013-168127号、第2016-029526号和第2016-218531号公报中,本专利技术人提出了一种用于基于“马尔可夫链的模块化分解”从网络检测重叠和分层群集(cluster)结构的方法。在基于马尔可夫链的模块化分解的聚类计算(提取社团)中,使用其中网络的每个节点的概率经由一个链路转移(随机游走)到另一个链路的模型,重复计算每个节点的概率的变化,并且基于达到稳定状态时的信息来确定每个节点所属的群集。在基于特征表示的向量之间的距离的聚类中,即使向量中包括的分量(即,属性)有关系,该关系也不反映在聚类中。因此,通过基于向量的聚类,不可能准确地执行对象的聚类。假设示例情况:将个人过去购买的食物列表用作个人的特征表示的向量以执行聚类。甚至在存在喜欢水果并购买比其它食物更多数量的水果的两个人的情况下,如果两个人中的一个人购买的水果与另一个人购买的水果完全不同,那么这两个人可能不会被归类到与水果爱好者相同的群集中,而是可能被归类到单独群集中。专
技术实现思路
因此,本专利技术的目的在于提供一种方法,通过该方法,可以获取比通过基于表示对象的属性组的特征表示的向量之间的距离执行聚类获取的结果更精确的聚类结果。根据本专利技术的第一方面,提供一种信息处理设备,该信息处理设备包括:获取输入数据的单元,所述输入数据表示对象中的每个对象的属性;生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及聚类单元,所述聚类单元通过执行在所述二分网络中经由链路在所述节点之间的转移的随机过程的迭代计算,来执行节点的组的聚类。根据本专利技术的第二方面,所述信息处理设备还包括:对象特征生成单元,所述对象特征生成单元通过使用由所述聚类单元执行的所述聚类的结果,针对所述对象中的每个对象生成表示聚类观点下的所述对象的特征的对象群集特征数据。根据本专利技术的第三方面,所述信息处理设备还包括:属性特征生成单元,所述属性特征生成单元通过使用由所述聚类单元执行的所述聚类的结果,针对所述属性中的每个属性生成表示聚类观点下的所述属性的特征的属性群集特征数据。根据本专利技术的第四方面,所述信息处理设备还包括以下单元:所述单元在输入表示不包括在输入数据中的新对象的属性的数据的情况下,通过使用由所述属性特征生成单元使用针对所述输入数据执行的所述聚类的结果生成的属性的所述属性群集特征数据,生成表示聚类观点下的所述新对象的特征的特征数据。根据本专利技术的第五方面,在所述信息处理设备中,所述聚类单元设置所述随机过程中的节点的初始值,以满足与所述对象对应的一组节点的初始值的总和大致等于与所述属性对应的节点的初始值的总和的条件,并使用所设置的节点的初始值以执行迭代计算。根据本专利技术的第六方面,在所述信息处理设备中,所述聚类单元执行通过使用连续时间模型而不使用离散时间模型进行的计算,作为所述随机过程的迭代计算。根据本专利技术的第七方面,提供一种信息处理方法,该方法包括以下步骤:获取输入数据,所述输入数据表示对象中的每个对象的属性;生成包括作为节点包括在输入数据中的所述对象和所述属性的二分网络,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及通过执行在所述二分网络中经由链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。根据本专利技术的第一方面和第七方面,可以获取比通过基于表示对象的属性组的特征表示的向量之间的距离执行聚类获取的结果更精确的聚类结果。根据本专利技术的第二方面,可以生成表示聚类观点下的对象的新特征的数据。根据本专利技术的第三方面,可以生成表示聚类观点下的属性的特征的数据。根据本专利技术的第四方面,在输入新对象的数据的情况下,可以生成针对新对象的特征数据,其具有比在将对象的数据反映到二分网络并执行随机过程的迭代计算的情况下的计算负荷更轻的计算负荷。根据本专利技术的第五方面,与随机地简单确定对象的一组节点的初始值和属性的一组节点的初始值的情况相比,可以在更大程度上补救迭代计算因为概率值在与对象对应的该组节点和与属性对象的该组节点之间来回移动而不可能收敛(converge)的情况。根据本专利技术的第六方面,与使用离散时间模型的情况相比,可以在更大程度上补救迭代计算因为概率值在与对象对应的一组节点和与属性对象的一组节点之间来回移动而不可能收敛的情况。附图说明将基于以下附图详细描述本专利技术的示例性实施方式,在附图中:图1是示出根据示例性实施方式的示例设备配置的视图;图2是示出从原始数据获取的示例原始特征表示的视图;图3是示出对象和属性的示例二分网络的视图;图4是示出通过聚类计算单元执行的示例处理的视图;图5是示出关于对象的示例聚类结果的视图;图6是示出由特征表生成单元生成的示例特征表示的视图;图7是用于说明概率切换的问题的视图;图8是示出根据修改例的示例设备配置的视图;以及图9是示出存储在属性特征存储单元中的属性的示例特征表示的视图。具体实施方式在下文中,将参照附图描述本专利技术的示例性实施方式。图1是示出根据本专利技术的示例性实施方式的信息处理设备1的配置的视图。信息处理装置1包括存储单元10、输入单元12、特征表示处理单元14和分析单元16。存储单元10包括例如随机存取存储器(RAM)和只读存储器(ROM)。存储单元10存储由特征表示处理单元14执行的程序,并且用作特征表示处理单元14的工作存储器。存储在存储单元10中并由特征表示处理单元14执行的程序可以是经由通信线路提供的程序,或者可以是存储在诸如半导体存储元件的计算机可读信息存储介质中并被提供的程序。根据本示例性实施方式的信息处理设备1的存储单元10存储从原始数据提取的原始特征表示(以下称为“原始表示”)的数据。原始数据是包括关于作为分析目标的每个对象的属性的信息,属性构成对象的特征。对数据内容、数据格式等都没有限制。诸如电子文档(以下简称为“文档”)的文本数据是原始数据的示例。在这种情况下,将每个文档视为作为分析目标的对象,并且将该文档中包括的各个词视为对象的各个属性。此外,诸如记录有个体的购买历史的数据库的关系数据以及上下文数据是原始数据的示例。在购买历史数据库的情况下,每个个体是作为分析目标的对象,并且由对象购买并被记录到数据库的各个商品是对象的各个属性。关于从原始数据获取的哪个信息项被视为对象并且从原始数据获取的哪个信息项被视为对象的属性的确定是根据分析目的适当指定的事项,上述说明仅是示例。原始表示是指示从原始数据提取的对象与属性之本文档来自技高网
...

【技术保护点】
1.一种信息处理设备,所述信息处理设备包括:获取输入数据的单元,所述输入数据表示对象中的每个对象的属性;生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及聚类单元,所述聚类单元通过执行在所述二分网络中经由所述链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。

【技术特征摘要】
2017.02.27 JP 2017-0348881.一种信息处理设备,所述信息处理设备包括:获取输入数据的单元,所述输入数据表示对象中的每个对象的属性;生成单元,所述生成单元生成二分网络,所述二分网络包括作为节点包括在所述输入数据中的对象和属性,并且在所述二分网络中,与所述对象中的每个对象对应的节点经由链路连接到与所述对象的所述属性对应的节点;以及聚类单元,所述聚类单元通过执行在所述二分网络中经由所述链路在所述节点之间的转移的随机过程的迭代计算,来执行所述节点的组的聚类。2.根据权利要求1所述的信息处理设备,所述信息处理设备还包括:对象特征生成单元,所述对象特征生成单元通过使用由所述聚类单元执行的聚类的结果,针对所述对象中的每个对象生成表示聚类观点下的所述对象的特征的对象群集特征数据。3.根据权利要求1或2所述的信息处理设备,所述信息处理设备还包括:属性特征生成单元,所述属性特征生成单元通过使用由所述聚类单元执行的聚类的结果,针对所述属性中的每个属性生成表示聚类观点下的所述属性的特征的属性群集特征数据。4.根据权利要求3所述的信息处理设备,所...

【专利技术属性】
技术研发人员:邱旭乐冈本洋
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1