多媒体分段和索引的基于上下文与内容的信息处理制造技术

技术编号：2868860 阅读：198 留言：0更新日期：2012-04-11 18:40

公开用于信息处理的方法和系统，例如，用于多媒体分段、索引和检索。所述方法和系统包括使用概率框架进行例如音频／视觉／文本（Ａ／Ｖ／Ｔ）的多媒体集成。多媒体内容和上下文信息两者均通过概率框架来表示和处理。此框架例如由贝叶斯网络和分级先验表示，所述框架是以图形方式由级描述，每级具有一组层，每层包括表示内容或上下文信息的多个节点。至少第一级的第一层处理诸如Ａ／Ｖ／Ｔ域中对象的多媒体内容信息或其组合。如下面进一步描述的那样，不同级的其它层描述多媒体上下文信息。每个层都是贝叶斯网络，其中每个层的节点解释下一“更低”层和／或“更低”级的某些特征。节点及其连接一起形成扩充贝叶斯网络。多媒体上下文是正被处理的多媒体信息（音频、视觉、文本）的环境、情况和基础结构。多媒体信息（内容和上下文）在层和级内以不同粒度级和不同抽象级组合。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
诸如来自因特网或商业电视的多媒体内容信息特征在于其纯卷量和复杂性。从数据角度来看，多媒体分成音频、视频(视觉)和抄录信息。此数据可以是非结构化的，即处于其原始格式，它可被编码成视频流，或者被结构化。它的结构化部分由其内容信息来描述。这可以从表示视觉域中对象的像素群集跨越到音频域中的音乐旋律和口语内容的文本摘要。基于内容的多媒体信息的典型处理是所谓的自底向上法和自顶向下法的组合。在自底向上法中，多媒体信息的处理从也被称为低级的信号处理级开始，对于该处理，在音频、视频和抄录域抽取不同的参数。这些参数一般描述空间和/或时间上的局部信息，诸如视觉域中基于像素信息或音频域中的短时间间隔(10ms)。这些参数的子集经组合产生中级参数，中级参数一般描述区域信息，诸如对应于视觉域中图像区域的空间区或音频域中的长时间间隔(例如，1-5秒)；高级参数描述更多的语义信息；这些参数通过中级参数的组合产生；此组合可在单域内或涉及不同的域。此方法要求记录许多参数，并且对这些参数估计中的错误敏感。因而，它不但容易损坏而且复杂。自顶向下法是模型驱动的。假定应用域，利用构造自底向上法的输出的特定模型，以帮助对这些输出增加健壮性。在此方法中，模型的选择是关键，它不能以任意的方式来实现；此处域知识很重要，并且这要求对应用域的约束。随着专业人员和普通大众可用的多媒体信息量的增加，这样的信息的用户要求(i)个人化，(ii)快速方便访问多媒体(例如视频)序列的不同部分，以及(iii)交互性。在过去几年中，取得的进展直接或间接满足了这些用户要求的某些方面。这包括开发了更快的CPU、存储器系统和媒体、以及...

【技术保护点】
一种用于处理信息信号的数据处理装置（５０２），它包括：至少一级，其中第一级包括：第一层（６０２），它具有第一多个节点，用于从所述信息信号抽取内容属性；以及第二层（６０８），它具有至少一个节点，用于利用另一层或下一级中选定节点的内容属性为所述至少一个节点确定上下文信息，并用于集成在所述至少一个节点的某些所述内容属性和所述上下文信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：RS雅辛施，
申请(专利权)人：皇家菲利浦电子有限公司，
类型：发明
国别省市：NL[荷兰]

全部详细技术资料下载我是这个专利的主人