信息处理装置、特征提取方法制造方法及图纸

技术编号:2919009 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种能够简单且正确地提取将多个要素进行分类后的类的特征的信息处理装置、特征提取方法、记录介质以及程序。组合提取部83,作为内容分类部81根据用户的指令将多个内容进行分类后的类的特征,从属于成为提取特征对象的特征提取对象类的每个内容的元数据的全部组合中,提取属于其他类的每个内容的元数据的组合中不存在的元数据的组合。本发明专利技术能够应用在推荐系统中。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种信息处理装置、特征提取方法、记录介质以及程序,特别是涉及能够简单且正确地提取将多个要素分类后的类的特征的信息处理装置、特征提取方法、记录介质以及程序。
技术介绍
目前,提出了如下的系统观众在视听节目过程中向服务器请求与节目关联的信息,将与视听过程中的节目预先相关联存储的节目关联信息提供给观众(例如,参照专利文献1)。另外,近年来,普及了专利文献1记载的专利技术那样的系统、服务,即,不仅响应于用户的要求,而且根据商品的购入、内容(例如电视节目、Web页等)的视听等过去的用户实绩,推荐符合用户爱好的商品、内容的系统、服务。例如,提出了如下方案对构成观众所选择的节目以及未选择的节目的节目名的语句进行评价,优先显示节目名中包括评价高的语句的节目候选(例如,参照专利文献2)。专利文献1日本特开2005-102109号公报专利文献2日本特开2001-275056号公报
技术实现思路
专利技术要解决的问题但是,在现有的推荐商品、内容的系统、服务中,大多使用根据用户的过去实绩,例如利用具有类似购买模式的其他用户的购买履历的强调过滤等推荐算法,但是这种情况下难以向用户呈现明确的推荐理由。另外,例如考虑使用用来从数据集合发现规则或者知识的理论即粗集合理论,从用户过去购入的商品、视听的内容等的数据属性中,将表示用户爱好的数据属性的组合作为推荐理由而提取,但是算法复杂且庞大,计算量以及计算所需的存储介质的存储容量很庞大。因此,需要采取以下应对措施限制与商品、内容等相关联的数据属性的数量、种类,或者准备处理能力高的计算机。另外,在专利文献2记载的专利技术中,从构成所选择节目的节目名的语句中,单纯地去掉构成未选择的节目名的语句,来推荐包括剩余语句的节目,它并不一定能正确地提取并反映用户的爱好。本专利技术是鉴于这种状况而作出的专利技术,能够简单且正确地提取将多个要素分类后的类的特征。用于解决问题的手段在本专利技术的一个侧面的信息处理装置中设置有特征提取单元,该特征提取单元作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。还可以设置特征呈现控制单元,该特征呈现控制单元控制上述类的特征的呈现,使得将所提取的上述数据的组合中的1个以上的组合作为上述类的特征呈现给用户。还可以设置数据提取单元,该数据提取单元根据属于上述类的上述要素和上述数据之间的第1关联度、以及属于其他上述类的上述要素和上述数据之间的第2关联度与上述第1关联度之间的差异,在提取上述数据的组合之前,提取更明确地表示属于上述类的上述要素的特征的上述数据,上述特征提取单元提取由上述数据提取单元所提取的上述数据的组合。在上述数据提取单元中,可根据上述第1关联度、以及上述第2关联度与上述第1关联度之间的差异,求出上述类中的上述数据的权重,提取上述权重的值是上位的规定数量的上述数据、或者上述权重的值是规定阈值以上的上述数据。在上述数据提取单元中将tfidf(term frequency with inversedocument frequency单词频率/逆文档频率)、相互信息量、信息增益比、χ平方值、或者对数似然比中的任意一个作为上述类中的上述数据的权重而求出。还可以设置要素提取单元,该要素提取单元根据所提取的上述数据的组合,从属于与由上述要素构成的第1组不同的第2组的要素中,提取与属于被提取了上述数据的组合的上述类的上述要素有关联的要素。在上述要素提取单元中,提取与包含所提取的上述数据的组合的上述数据相关联的属于上述第2组的上述要素。还可以设置要素呈现控制单元,该要素呈现控制单元控制向用户呈现所提取的上述要素。可在上述要素呈现控制单元中进行控制,使得作为提取上述要素的依据,进一步呈现上述要素的提取中所使用的上述数据的组合。可使上述要素是内容,上述数据是与上述内容有关的元数据。还可以设置评价指标算出单元,该评价指标算出单元算出评价指标,该评价指标表示所提取的上述数据的组合和属于提取对象类的上述要素之间的关联度,其中,该提取对象类是被提取了上述数据的组合的上述类。可在上述评价指标算出单元中作为上述评价指标算出F值,该F值是属于上述提取对象类的上述要素之中与包括上述数据的组合的上述数据相关联的上述要素所占的比例即再现率、以及与包括上述数据的组合的上述数据相关联的上述要素之中属于上述提取对象类的上述要素所占的比例即适合率的调和平均。还可以设置类分类单元,该类分类单元根据对与成为分类对象的要素相关联的上述数据的组合的上述评价指标,将成为上述分类对象的要素分类到上述类。还可以设置类分类单元,该类分类单元根据与成为分类对象的要素相关联的上述数据的组合之中与从各个上述类中提取的上述数据的组合一致的数量,将成为上述分类对象的要素分类到上述类。还可以设置特征呈现单元,该特征呈现单元根据与成为呈现特征的对象的要素相关联的上述数据的组合之中与从各个上述类中提取的上述数据的组合一致的上述数据的组合中所包含的上述数据、以及提取了一致的上述数据的组合的上述类,呈现成为呈现上述特征的对象的要素的特征。本专利技术的一个侧面的特征提取方法或者程序,包括如下步骤作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。在本专利技术的一个侧面中,作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。专利技术的效果如上所述,根据本专利技术的一个侧面,能够提取将多个要素分类后的类的特征。另外,根据本专利技术的一个侧面,能够简单且正确地提取将多个要素分类的类的特征。附图说明图1是表示应用了本专利技术的信息处理系统的第1实施方式的框图。图2是表示图2的客户端运算部的功能结构的例子的框图。图3是表示与内容相关联的元数据的例子的图。图4是用于说明由图1的信息处理系统执行的关键字提取处理的流程图。图5是用于说明将内容进行分类的观点的图。图6是用于说明元数据的提取的例子的图。图7是用于详细说明图4的步骤S3的元数据提取处理的流程图。图8是将提取的关键字呈现给用户的画面的例子。图9是将提取的关键字呈现给用户的画面的其他例子。图10是用于说明由图1的信息处理系统执行的内容推荐处理的流程图。图11是表示应用了本专利技术的信息处理系统的第2实施方式的框图。图12是表示图11的客户端运算部的功能结构的例子的框图。图13是用于说明由图11的信息处理系统本文档来自技高网...

【技术保护点】
一种信息处理装置,包括:特征提取单元,作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,该特征提取单元在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上 述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:宫嵜充弘
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1