当前位置: 首页 > 专利查询>索尼公司专利>正文

信息处理设备、信息处理方法和程序技术

技术编号:8629587 阅读:140 留言:0更新日期:2013-04-26 18:29
本发明专利技术涉及一种能够容易地执行针对内容的注释分配的信息处理设备、信息处理方法和程序。特征值提取单元(21)提取用于学习的内容的图像的每个帧的图像特征值,并且提取与描述用于学习的内容的图像的内容的描述文本(例如,字幕文本)中的每个词的出现频率相关的词频信息,作为描述文本的文本特征值。模型学习单元(22)使用每个帧的图像特征值以及作为包含文本特征值的内容的多流的注释的注释使用序列,执行作为多流隐马尔可夫模型(HMM)的注释模型的学习。例如,当向用于电视广播的节目的内容分配注释时,可以应用本发明专利技术。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及信息处理设备、信息处理方法和程序,具体地,涉及例如能够容易地向内容附加注释并且提供利用注释的应用的信息处理设备、信息处理方法和程序。
技术介绍
存在显示内容的概要的方法作为用户用来识别包括广播节目等的图像的内容的总结的方法(例如,专利文献1、2和3)。引用列表专利文献专利文献1:日本专利申请公开第2007-163568号专利文献2 :日本专利申请公开第2008-175994号专利文献3 :日本专利申请公开第2010-093461号
技术实现思路
本专利技术要解决的技术问题作为用户用来识别内容的总结的方法,除了显示内容的概要的方法之外,存在向内容附加注释的方法。现在,需要提出容易地向内容附加注释的技术。考虑到这样的情形而实现了本专利技术,并且其目标是容易地向内容附加注释并且提供利用了注释的应用。针对问题的方案根据本专利技术的一个方面的信息处理设备或程序是一种信息处理设备,其包括特征量提取部件,用于提取学习内容的图像的每个帧的图像特征量,并且提取与每个词在描述学习内容的图像的内容的描述文本中的出现频率有关的词频信息,作为描述文本的文本特征量;以及模型学习部件,通过使用用于注释的注释序列来学习注释模型,其中注释模型是多流HMM (隐马尔可夫模型),并且注释序列是包括图像特征量和文本特征量的多流。根据本专利技术的一个方面的信息处理方法是一种由信息处理设备执行的信息处理方法,其包括如下步骤提取学习内容的图像的每个帧的图像特征量,并且提取关于每个词在描述学习内容的图像的内容的描述文本中的出现频率的词频信息,作为描述文本的文本特征量;以及通过使用用于注释的注释序列来学习注释模型,其中注释模型是多流HMM (隐马尔可夫模型),并且注释序列是包括图像特征量和文本特征量的多流。在如上文所述的本专利技术的一个方面,提取学习内容的图像的每个帧的图像特征量并且提取与每个词在描述学习内容的图像的内容的描述文本中的出现频率有关的词频信息,作为描述文本的文本特征量吗,并且通过使用用于注释的注释序列来学习注释模型,其中注释模型是多流HMM (隐马尔可夫模型),并且注释序列是包括图像特征量和文本特征量的多流。同时,信息处理设备可以是独立的设备或者可以是构成一个设备的内部块。而且,可以通过经由传输介质来传输或者提供记录在记录介质中来提供程序。本专利技术的效果根据本专利技术的一个方面,有可能容易地向内容附加注释并且提供利用注释的应用。附图说明图1是图示了应用了本专利技术的信息处理设备的记录器的一个实施例的配置示例的框图。图2是图示了学习设备12的框图。图3是图示了特征量提取单元21的第一配置示例的框图。图4是图示了字幕CSV数据和中间数据的示例的视图。图5是图示了将中间数据转换为频率数据的方法的视图。图6是图示了文本特征量的示例的视图。图7是图示了学习设备12学习注释模型的学习处理的流程图。图8是图示了注释附加设备14的配置示例的框图。图9是图示了注释附加设备14将注释附加到目标内容的注释附加处理的流程图。图10是图示了帧搜索设备15的配置示例的框图。图11是图示了帧搜索设备15从目标内容中搜索关键词帧以生成关键词摘要的帧搜索处理的流程图。图12是图示了针对关键词KW#1、KW#2、KW#3和KW#4中的每个获取的目标内容的每个帧的关键词符合度的示例的视图。图13是图示了作为AND搜索式的运算的数字min运算的视图。图14是图示了作为OR搜索式的运算的数字max运算的视图。图15是图示了显示控制设备16的配置示例的框图。图16是图示了由显示控制器63绘制的模型映射的数量的视图。图17是图示了通过使用校正的误差函数E来获取的模型映射的显示示例的视图。图18是图示了由显示控制器63显示的、其上布置有代表性图像和注释的模型映射的显示示例的视图。图19是模型映射的部分放大的视图。图20是图示了显示控制设备16显示模型映射的显示控制处理的流程图。图21是图示了特征量提取单元21的第二配置示例的框图。图22是图示了特征量提取单元21的第三配置示例的框图。图23是图示了对LDA的学习的视图,在对LDA的学习中,基础空间学习单元161获取LDA的参数作为用于文本的基础空间的基础空间数据。图24是图示了通过使用用于文本的基础空间的基础空间数据来由降维单元163执行的文本特征量的降维的视图。图25是图示了注释附加设备14的特征量提取单元41的配置示例的框图。图26是图示了注释附加设备14的注释附加处理的流程图。图27是图示了搜索设备15的帧搜索处理的流程图。图28是图示了显示控制设备16对模型映射的显示控制处理的流程图。图29是图示了针对每个潜在主题来显示附加到目标内容的注释的显示示例的视图。图30是图示了显示控制设备16对主题列表的显示控制处理的流程图。图31是图示了使用主题列表的注释的显示格式的示例的视图。图32是图示了使用模型映射的注释的显示格式的示例的视图。图33是图示了特征量提取单元21的第四配置示例的框图。图34是图示了注释附加设备14的特征量提取单元41的配置示例的框图。图35是图示了应用了本专利技术的信息处理设备的记录器的另一实施例的配置示例的框图。图36是图示了浏览记录器对注释模型的学习的概要的视图。图37是图示了通过由浏览记录器使用注释模型来从目标内容中提取场景的概要的视图。图38是图示了显示控制的概要的视图,在显示控制中,浏览记录器显示场景的代表性图像以便按显示时间的顺序来布置。图39是图示了其中显示了时间顺序概要显示图像的显示控制的概要的视图,在时间顺序概要显示图像中,按显示时间的顺序来布置仅仅角(场景)的代表性图像,角的内容是由用户输入的关键词来代表的。图40是图示了浏览控制设备314的配置示例的框图。图41是图示了由浏览记录器执行的设定成立的流程图。图42是图示了由浏览记录器执行的内容获取相关处理的流程图。图43是图示了通过浏览控制设备314使用注释模型来执行的处理(浏览控制处理)的流程图。图44是图示了当用户输入关键词时由浏览控制设备314执行的处理的流程图。图45是图示了应用了本专利技术的计算机的一个实施例的配置示例的框图。具体实施例方式<第一实施例>[应用了本专利技术的信息处理设备的记录器的一个实施例]图1是图示了应用了本专利技术的信息处理设备的记录器的一个实施例的配置示例的框图。图1中的记录器是HD (硬盘)记录器等,例如,其可以记录(存储)各种内容,诸如电视广播、通过诸如因特网的网络提供的内容、以及由摄像机等拍摄的内容。就是说,在图1中,记录器包括内容存储单元11、学习设备12、注释模型存储单元13、注释附加设备14、帧搜索设备15和显示控制设备16。同时,内容存储单元11、学习设备12、注释模型存储单元13、注释附加设备14、帧搜索设备15和显控制设备16可以构成一个设备(壳体)或者多个设备。就是说,例如,有可能将内容存储单元U、学习设备12和注释模型存储单元13构成为一个设备,诸如家庭网络上的服务器或者因特网上的服务器,并且将注释附加设备14、帧搜索设备15和显示控制设备16中的每个构成为另一设备,诸如客户端。例如,内容存储单元11存储(记录)包括图像的内容,诸如电视节目。例如,在内容存储单元11中存储内容就是记录内容,并且根据用户本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.08.11 JP 2010-1801741.一种信息处理设备,包括 特征量提取部件,用于提取学习内容的图像的每个帧的图像特征量,并且提取与每个词在描述所述学习内容的图像的内容的描述文本中的出现频率有关的词频信息,作为所述描述文本的文本特征量;以及 模型学习部件,通过使用用于注释的注释序列来学习注释模型,其中所述注释模型是多流隐马尔可夫模型HMM,并且所述注释序列是包括所述图像特征量和所述文本特征量的多流。2.根据权利要求1所述的信息处理设备,其中 所述学习内容包括字幕文本,以及 所述描述文本是所述学习内容中包括的所述字幕文本。3.根据权利要求2所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取所述窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率。4.根据权利要求2所述的信息处理设备,进一步包括 注释附加部件,用于通过使用所述注释模型,将注释附加到要被附加注释的对象内容。5.根据权利要求4所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取所述窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率,以及 所述注释附加部件 提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列, 获得所述注释序列在所述注释模型中被观测到的最大似然状态序列,以及选择在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下观测到的所述多项分布中的具有高频率的词,作为要附加到所述关注帧的注释。6.根据权利要求2所述的信息处理设备,进一步包括 帧搜索部件,用于从对象内容搜索关键词帧,其中通过使用所述注释模型从所述对象内容搜索所述关键词帧,并且所述关键词帧是内容符合预定关键词的帧。7.根据权利要求6所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率,以及所述帧搜索部件 提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列, 获得所述注释序列在所述注释模型中被观测到的最大似然状态序列,以及当在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下观测到的所述多项分布中,所述预定关键词的频率高时,选择所述关注帧作为所述关键词帧。8.根据权利要求2所述的信息处理设备,进一步包括 显示控制部件,用于显示要附加到要被附加注释的对象内容的帧的注释,其中通过使用所述注释模型将所述注释附加到所述对象内容。9.根据权利要求8所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率,以及 所述显示控制部件 提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列, 通过获得所述注释序列在所述注释模型中被观测到的最大似然状态序列来获得与所述对象内容的每个帧对应的状态, 基于在所述状态下观测到的所述多项分布,获得要附加到与所述状态对应的帧的注释,以及 对于所述注释模型的每个状态,显示要附加到与所述状态对应的帧的注释。10.根据权利要求9所述的信息处理设备,其中 所述显示控制部件 基于从所述注释模型的一个状态到另一状态的状态转变概率,获得从所述一个状态到所述另一状态的状态间距离, 获得作为状态在模型图上的位置的坐标的状态坐标,使得所述模型图上的从所述一个状态到所述另一状态的欧几里得距离和所述状态间距离之间的误差变小,其中所述模型图是所述注释模型的状态布置在其上的图, 在所述状态坐标的位置显示相应的状态布置在其上的所述模型图,以及在所述模型图上的状态下,显示表示与所述状态对应的帧的代表图像以及要附加到与所述状态对应的帧的注释。11.根据权利要求2所述的信息处理设备,其中 所述特征量提取部件执行降维以减少所述图像特征量和所述文本特征量的维度,以及所述模型学习部件将包括所述降维之后的所述文本特征量和所述图像特征量的所述多流用作所述注释序列来学习所述注释模型。12.根据权利要求11所述的信息处理设备,其中 所述特征量提取部件通过使用所述图像特征量来获得用于映射所述图像特征量的、维度低于所述图像特征量的维度的图像的基底空间的基底空间数据, 基于所述的图像的基底空间的基底空间数据来执行所述图像特征量的降维, 通过使用所述文本特征量来获得用于映射所述文本特征量的、维度低于所述文本特征量的维度的文本的基底空间的基底空间数据,以及 基于所述的文本的基底空间的基底空间数据来执行所述文本特征量的降维。13.根据权利要求12所述的信息处理设备,其中 所述特征量提取部件 通过使用所述图像特征量来获得用于向量量化的码本,作为所述的图像的基底空间的基底空间数据,以及 通过使用所述码本来执行所述图像特征量的向量量化,获得表示质心向量的代码,作为所述降维之后的所述图像特征量。14.根据权利要求12所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取每个词在所述文档中的出现频率,作为所述文本特征量, 通过使用从所述...

【专利技术属性】
技术研发人员:铃木洋贵伊藤真人
申请(专利权)人:索尼公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1