多媒体分段和索引的基于上下文与内容的信息处理制造技术

技术编号:2868860 阅读:198 留言:0更新日期:2012-04-11 18:40
公开用于信息处理的方法和系统,例如,用于多媒体分段、索引和检索。所述方法和系统包括使用概率框架进行例如音频/视觉/文本(A/V/T)的多媒体集成。多媒体内容和上下文信息两者均通过概率框架来表示和处理。此框架例如由贝叶斯网络和分级先验表示,所述框架是以图形方式由级描述,每级具有一组层,每层包括表示内容或上下文信息的多个节点。至少第一级的第一层处理诸如A/V/T域中对象的多媒体内容信息或其组合。如下面进一步描述的那样,不同级的其它层描述多媒体上下文信息。每个层都是贝叶斯网络,其中每个层的节点解释下一“更低”层和/或“更低”级的某些特征。节点及其连接一起形成扩充贝叶斯网络。多媒体上下文是正被处理的多媒体信息(音频、视觉、文本)的环境、情况和基础结构。多媒体信息(内容和上下文)在层和级内以不同粒度级和不同抽象级组合。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
诸如来自因特网或商业电视的多媒体内容信息特征在于其纯卷量和复杂性。从数据角度来看,多媒体分成音频、视频(视觉)和抄录信息。此数据可以是非结构化的,即处于其原始格式,它可被编码成视频流,或者被结构化。它的结构化部分由其内容信息来描述。这可以从表示视觉域中对象的像素群集跨越到音频域中的音乐旋律和口语内容的文本摘要。基于内容的多媒体信息的典型处理是所谓的自底向上法和自顶向下法的组合。在自底向上法中,多媒体信息的处理从也被称为低级的信号处理级开始,对于该处理,在音频、视频和抄录域抽取不同的参数。这些参数一般描述空间和/或时间上的局部信息,诸如视觉域中基于像素信息或音频域中的短时间间隔(10ms)。这些参数的子集经组合产生中级参数,中级参数一般描述区域信息,诸如对应于视觉域中图像区域的空间区或音频域中的长时间间隔(例如,1-5秒);高级参数描述更多的语义信息;这些参数通过中级参数的组合产生;此组合可在单域内或涉及不同的域。此方法要求记录许多参数,并且对这些参数估计中的错误敏感。因而,它不但容易损坏而且复杂。自顶向下法是模型驱动的。假定应用域,利用构造自底向上法的输出的特定模型,以帮助对这些输出增加健壮性。在此方法中,模型的选择是关键,它不能以任意的方式来实现;此处域知识很重要,并且这要求对应用域的约束。随着专业人员和普通大众可用的多媒体信息量的增加,这样的信息的用户要求(i)个人化,(ii)快速方便访问多媒体(例如视频)序列的不同部分,以及(iii)交互性。在过去几年中,取得的进展直接或间接满足了这些用户要求的某些方面。这包括开发了更快的CPU、存储器系统和媒体、以及编程接口。对于上面的个人化要求,诸如TiVo的产品允许用户依据其用户简档和电子节目指南来记录所有或部分广播/有线/卫星电视节目。个人(数字)视频记录器中的这个相对新的应用域要求增加新的功能。这些功能范围从用户简档到商业与节目分离及基于内容的视频处理。PVR集成了PC、存储器和搜索技术。因特网查询语言的开发允许访问主要基于文本的多媒体信息。虽然实现了这些发展,但显然存在着改善信息分段、索引和表示的需要。通过根据本专利技术原理的方法和系统,减少或克服了与诸如多媒体分段、索引和表示的信息处理相关的一些问题。所述方法和系统包括使用概率框架对诸如音频/视觉/文本(A/V/T)的多媒体的集成。此框架除通过使用基于内容的视频外、还通过使用多媒体上下文信息扩大多媒体处理和表示的范围。更具体地说,概率框架包括至少一级,该级具有一个或多个层,其中每个层包括表示内容或上下文信息的多个节点,所述级由贝叶斯(Bayesian)网络和分级先验表示。贝叶斯网络组合有向非循环图(DAG)和条件概率分布(cpd),在有向非循环图中,每个节点对应于给定(音频、视觉、抄录)多媒体域的给定特性(参数),并且每个有向弧描述两个节点间的因果关系,每个弧一个cpd。分级先验增大贝叶斯网络的范围每个cpd可以通过循环使用Chapman-Kolmogorov等式,由增大的内部变量组表示。在此表示中,每个内变量与特定级的一个层有关。如上所述,不具有任何内部变量的cpd描述标准贝叶斯网络的结构;这定义了基级。这种情况下,节点与基于内容的视频信息有关。随后,具有单个内部变量的cpd描述第二级的节点之间的关系或此第二级的节点与基级的节点之间的关系。对于任意数量的级,这被重复。除此之外,通过形成贝叶斯网络,每一个级中的节点而彼此相关。此增大的级组的重要性在于包括多媒体上下文信息。多媒体上下文信息在分级先验框架中表示为除基本级外不同级中的节点。多媒体上下文信息由作为视频信息基础的“特征”或“模式”来确定。例如,为了分割和索引电视节目中的音乐剪辑,我们按诸如音乐节目(MTV)、交谈节目或甚至是商业节目的种类来区分电视节目;这是电视节目中的上下文信息。如果也确定语义信息,则此增加的上下文信息可大大减少与电视节目有关的视频处理,所述电视节目具有大量的数据且处理特别复杂。多媒体上下文的特征在于它单独在音频、视觉和文本每个域内被定义,并且它可以被定义用于来自这些不同域的信息的组合。上下文信息不同于内容信息;一般说来后者处理对象及其关系,而前者处理涉及对象的环境。在电视节目中,内容“对象”定义在不同的抽象层和粒度层。因此,通过组合使用内容和上下文信息,本专利技术允许根据多媒体信息的语义特征来对多媒体进行分段和索引。这允许在多媒体信息描述中(通过索引)有(i)健壮性、(ii)通用性和(iii)互补性。在本专利技术的一个例如用于视频探测(VSVideo Scouting)的说明性实施例中,在第一级中有五个功能不同的层。具体地说,每个层由节点来定义,且“更低”节点通过有向弧与“更高”节点有关。因此,使用了有向非循环图(DAG),并且每个节点定义视频探测系统描述的给定特性,而节点之间的弧描述它们之间的关系;每个节点和每个弧与cpd有关。假定与“更高”级中父节点有关的属性的真实,与节点有关的cpd测量定义节点的属性为真的概率。分层方法允许区别不同类型的处理,每个层一种处理。例如,在电视节目分段和索引框架中,一个层可用于处理节目段,而另一层可处理种类或节目风格信息。这允许用户选择在例如在节目子节目场景镜头(shot)帧图像区图像区部分部分像素的不同粒度层的多媒体信息,其中场景是多个镜头的集合,镜头是基于色彩和/或亮度级变化而分割的视频单元,而对象是信息的音频/视觉/文本单元。视频探测的第一层过滤层包括电子节目指南(EPG)和简档,一个用于节目个人爱好(P_PP),而另一个用于内容个人爱好(C_PP)。EPG和PP为ASCII文本格式,并且它们用作用户选择或交互作用的节目内的段/事件或电视节目的初始过滤器。第二层特点抽取层被分成三个域视觉、音频和文本域。在每个域中,彼此独自处理信息的一组“滤波器组”选择特定属性的信息。这包括每个特性中的信息的集成。并且,使用来自此层的信息,对视频/音频镜头进行分段。第三层工具层集成了特点抽取层每个域中的信息;其输出是帮助索引视频/音频镜头的对象。第四层语义处理层组合来自工具层的要素。这种情况下,也可以发生跨域集成。最后,第五层用户应用层通过组合来自语义处理层的要素来分割并索引节目或节目段。此最后层通过PP和C_PP反应用户输入。阅读下面结合附图进行的详细说明之后,可以更容易地理解本专利技术,附图中附图说明图1是基于内容的方法的操作流程图;图2说明上下文分类法;图3说明视觉上下文;图4说明音频上下文;图5说明本专利技术的一个实施例;图6说明在图5实施例中使用的级和层;图7说明在图5实施例中使用的上下文生成;图8说明在图5实施例中使用的群集操作;图9说明具有多个级的本专利技术的另一实施例;以及图10说明具有两级的本专利技术的另一实施例,示出了每个级的层和级之间的连接。本专利技术在涉及与嵌入电视设备中的硬磁盘记录器、个人视频记录器(PVR)的技术方面特别重要,在授予N.Dimitrova等人于1999年11月18日申请的题为“音频/数据/视觉信息选择、存储和传送的方法与装置”的美国专利申请09/442960中公开了这类视频探测系统,通过引用将其结合在此,所述专利还公开了视频数据库和因特网的多媒体信息的智能分段本文档来自技高网...

【技术保护点】
一种用于处理信息信号的数据处理装置(502),它包括:至少一级,其中第一级包括:第一层(602),它具有第一多个节点,用于从所述信息信号抽取内容属性;以及第二层(608),它具有至少一个节点,用于利用另一层或下一级中 选定节点的内容属性为所述至少一个节点确定上下文信息,并用于集成在所述至少一个节点的某些所述内容属性和所述上下文信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:RS雅辛施
申请(专利权)人:皇家菲利浦电子有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1