信息处理设备、信息处理方法和程序技术

技术编号：8629587 阅读：140 留言：0更新日期：2013-04-26 18:29

本发明专利技术涉及一种能够容易地执行针对内容的注释分配的信息处理设备、信息处理方法和程序。特征值提取单元（21）提取用于学习的内容的图像的每个帧的图像特征值，并且提取与描述用于学习的内容的图像的内容的描述文本（例如，字幕文本）中的每个词的出现频率相关的词频信息，作为描述文本的文本特征值。模型学习单元（22）使用每个帧的图像特征值以及作为包含文本特征值的内容的多流的注释的注释使用序列，执行作为多流隐马尔可夫模型（HMM）的注释模型的学习。例如，当向用于电视广播的节目的内容分配注释时，可以应用本发明专利技术。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及信息处理设备、信息处理方法和程序，具体地，涉及例如能够容易地向内容附加注释并且提供利用注释的应用的信息处理设备、信息处理方法和程序。
技术介绍
存在显示内容的概要的方法作为用户用来识别包括广播节目等的图像的内容的总结的方法(例如，专利文献1、2和3)。引用列表专利文献专利文献1:日本专利申请公开第2007-163568号专利文献2 :日本专利申请公开第2008-175994号专利文献3 :日本专利申请公开第2010-093461号
技术实现思路
本专利技术要解决的技术问题作为用户用来识别内容的总结的方法，除了显示内容的概要的方法之外，存在向内容附加注释的方法。现在，需要提出容易地向内容附加注释的技术。考虑到这样的情形而实现了本专利技术，并且其目标是容易地向内容附加注释并且提供利用了注释的应用。针对问题的方案根据本专利技术的一个方面的信息处理设备或程序是一种信息处理设备，其包括特征量提取部件，用于提取学习内容的图像的每个帧的图像特征量，并且提取与每个词在描述学习内容的图像的内容的描述文本中的出现频率有关的词频信息，作为描述文本的文本特征量；以及模型学习部件，通过使用用于注释的注释序列来学习注释模型，其中注释模型是多流HMM (隐马尔可夫模型)，并且注释序列是包括图像特征量和文本特征量的多流。根据本专利技术的一个方面的信息处理方法是一种由信息处理设备执行的信息处理方法，其包括如下步骤提取学习内容的图像的每个帧的图像特征量，并且提取关于每个词在描述学习内容的图像的内容的描述文本中的出现频率的词频信息，作为描述文本的文本特征量；以及通过使用用于注释的注...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.08.11 JP 2010-1801741.一种信息处理设备,包括特征量提取部件，用于提取学习内容的图像的每个帧的图像特征量，并且提取与每个词在描述所述学习内容的图像的内容的描述文本中的出现频率有关的词频信息，作为所述描述文本的文本特征量；以及模型学习部件，通过使用用于注释的注释序列来学习注释模型，其中所述注释模型是多流隐马尔可夫模型HMM，并且所述注释序列是包括所述图像特征量和所述文本特征量的多流。2.根据权利要求1所述的信息处理设备，其中所述学习内容包括字幕文本，以及所述描述文本是所述学习内容中包括的所述字幕文本。3.根据权利要求2所述的信息处理设备，其中所述特征量提取部件在使具有预定时间长度的窗口按规律的间隔平移的同时，提取所述窗口中显示的所述字幕文本中包括的词，作为一个文档，以及提取多项分布，作为所述文本特征量，所述多项分布表示每个词在所述文档中的出现频率。4.根据权利要求2所述的信息处理设备，进一步包括注释附加部件，用于通过使用所述注释模型，将注释附加到要被附加注释的对象内容。5.根据权利要求4所述的信息处理设备，其中所述特征量提取部件在使具有预定时间长度的窗口按规律的间隔平移的同时，提取所述窗口中显示的所述字幕文本中包括的词，作为一个文档，以及提取多项分布，作为所述文本特征量，所述多项分布表示每个词在所述文档中的出现频率，以及所述注释附加部件提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列，获得所述注释序列在所述注释模型中被观测到的最大似然状态序列，以及选择在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下观测到的所述多项分布中的具有高频率的词，作为要附加到所述关注帧的注释。6.根据权利要求2所述的信息处理设备，进一步包括帧搜索部件，用于从对象内容搜索关键词帧，其中通过使用所述注释模型从所述对象内容搜索所述关键词帧，并且所述关键词帧是内容符合预定关键词的帧。7.根据权利要求6所述的信息处理设备，其中所述特征量提取部件在使具有预定时间长度的窗口按规律的间隔平移的同时，提取窗口中显示的所述字幕文本中包括的词，作为一个文档，以及提取多项分布，作为所述文本特征量，所述多项分布表示每个词在所述文档中的出现频率，以及所述帧搜索部件提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列，获得所述注释序列在所述注释模型中被观测到的最大似然状态序列，以及当在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下观测到的所述多项分布中，所述预定关键词的频率高时，选择所述关注帧作为所述关键词帧。8.根据权利要求2所述的信息处理设备，进一步包括显示控制部件，用于显示要附加到要被附加注释的对象内容的帧的注释，其中通过使用所述注释模型将所述注释附加到所述对象内容。9.根据权利要求8所述的信息处理设备，其中所述特征量提取部件在使具有预定时间长度的窗口按规律的间隔平移的同时，提取窗口中显示的所述字幕文本中包括的词，作为一个文档，以及提取多项分布，作为所述文本特征量，所述多项分布表示每个词在所述文档中的出现频率，以及所述显示控制部件提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列，通过获得所述注释序列在所述注释模型中被观测到的最大似然状态序列来获得与所述对象内容的每个帧对应的状态，基于在所述状态下观测到的所述多项分布，获得要附加到与所述状态对应的帧的注释，以及对于所述注释模型的每个状态，显示要附加到与所述状态对应的帧的注释。10.根据权利要求9所述的信息处理设备，其中所述显示控制部件基于从所述注释模型的一个状态到另一状态的状态转变概率，获得从所述一个状态到所述另一状态的状态间距离，获得作为状态在模型图上的位置的坐标的状态坐标，使得所述模型图上的从所述一个状态到所述另一状态的欧几里得距离和所述状态间距离之间的误差变小，其中所述模型图是所述注释模型的状态布置在其上的图，在所述状态坐标的位置显示相应的状态布置在其上的所述模型图，以及在所述模型图上的状态下，显示表示与所述状态对应的帧的代表图像以及要附加到与所述状态对应的帧的注释。11.根据权利要求2所述的信息处理设备，其中所述特征量提取部件执行降维以减少所述图像特征量和所述文本特征量的维度，以及所述模型学习部件将包括所述降维之后的所述文本特征量和所述图像特征量的所述多流用作所述注释序列来学习所述注释模型。12.根据权利要求11所述的信息处理设备，其中所述特征量提取部件通过使用所述图像特征量来获得用于映射所述图像特征量的、维度低于所述图像特征量的维度的图像的基底空间的基底空间数据，基于所述的图像的基底空间的基底空间数据来执行所述图像特征量的降维，通过使用所述文本特征量来获得用于映射所述文本特征量的、维度低于所述文本特征量的维度的文本的基底空间的基底空间数据，以及基于所述的文本的基底空间的基底空间数据来执行所述文本特征量的降维。13.根据权利要求12所述的信息处理设备，其中所述特征量提取部件通过使用所述图像特征量来获得用于向量量化的码本，作为所述的图像的基底空间的基底空间数据，以及通过使用所述码本来执行所述图像特征量的向量量化，获得表示质心向量的代码，作为所述降维之后的所述图像特征量。14.根据权利要求12所述的信息处理设备，其中所述特征量提取部件在使具有预定时间长度的窗口按规律的间隔平移的同时，提取窗口中显示的所述字幕文本中包括的词，作为一个文档，以及提取每个词在所述文档中的出现频率，作为所述文本特征量，通过使用从所述...

【专利技术属性】
技术研发人员：铃木洋贵，伊藤真人，
申请(专利权)人：索尼公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人