使用公众网站获取元数据制造技术

技术编号:2836491 阅读:216 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及使用公众网站获取元数据。类别数据集包括类别的名称和关系数据,其中,关系数据定义类别和内容之间的关系。内容的类别通过从与特定内容有关的例如WIKIPEDIA网站的在线公众网站检索网页并分析该网页以获得内容元数据来产生。从内容元数据提取该内容的类别数据。另外,基于类别和关系数据减少类别数据集的语言项。

【技术实现步骤摘要】

本专利技术一般地涉及多媒体,尤其是涉及使用公众(community-generated)数据源来产生多媒体元数据。
技术介绍
聚类(cluster)和分类(classification)趋于成为某些数据挖掘应用中重要的操作。例如,就帮助用户搜索和自动组织内容的目的,在数据系统中,数据集(dataset)中的数据可能需要进行聚类和/或分类。搜索和自动组织的内容例如记录的电视节目、电子节目指南条目以及其它类型的多媒体内容。一般来说,当数据集是数值的时(即,当数据集中的数据都通过某个固有相似性度量(similarity metric)或自然的顺序相关时),很多聚类和分类算法都能很好的工作。数值的数据集经常描述单一属性或类别。另一方面,类别数据集描述经常是离散的多属性或类别,因此,在这些多属性或类别之间缺乏自然的距离或近似度。
技术实现思路
类别数据集包括类别的名称和关系数据,其中,关系数据定义类别和内容之间的关系。内容的类别通过从与某条具体内容有关的、例如WIKIPEDIA网站的在线公众网站检索网页并分析该网页以获得内容元数据来产生。从内容元数据提取该条内容的类别数据。另外,基于类别和关系数据减少类别数据集的语言项(term)。根据本专利技术的第一方面,提供一种计算机化方法,其包括从公众网站接收网页,所述网页与特定内容有关;从所述网页提取多个语言项;将所述多个语言项添加到与所述内容有关的内容元数据;从所述内容元数据提取指定类别数据;将所述指定类别数据加载到类别数据集;以及基于所述类别数据集和关系数据减少所述类别数据集的维度,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。根据本专利技术的第二方面,提供一种机器可读介质,其包括从公众网站接收网页,所述网页与特定内容有关;从所述网页提取多个语言项;将所述多个语言项添加到与所述内容有关的内容元数据;从所述内容元数据提取指定类别数据;将所述指定类别数据加载到类别数据集;以及基于所述类别数据集和关系数据减少所述类别数据集的维度,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。根据本专利技术的第三方面,提供一种设备,其包括用于从公众网站接收网页的装置,所述网页与特定内容有关;用于从所述网页提取多个语言项的装置;用于将所述多个语言项添加到与所述内容有关的内容元数据的装置;用于从所述内容元数据提取指定类别数据的装置;用于将所述指定类别数据加载到类别数据集中的装置;以及用于基于所述类别数据集和关系数据减少所述类别数据集的维度的装置,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。根据本专利技术的第四方面,提供一种系统,其包括处理器;通过总线连接到所述处理器的存储器;以及由所述处理器从所述存储器执行的处理,所述处理使得处理器从公众网站接收网页,所述网页与特定内容有关;从所述网页提取多个语言项;将所述多个语言项添加到与所述内容有关的内容元数据;从所述内容元数据提取指定类别数据;将所述指定类别数据加载到类别数据集中;以及基于所述类别数据集和关系数据减少所述类别数据集的维度,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。使用不同范围的系统、客户端、服务器、方法和机器可读介质一起说明了本专利技术。除了该
技术实现思路
中说明的本专利技术的方面,通过参考附图并阅读下面的详细说明,本专利技术的其它方面将变得明显。附图说明附图中的各图以例子的方式说明本专利技术,而不限制本专利技术,其中,相似的附图标记表示相似的元件。图1A示出多媒体数据库系统的一个实施例。图1B示出内容元数据(metadata)的一个实施例。图2是用于生成来自公众网站的内容的元数据的方法的一个实施例的流程图。图3是图2的方法中使用的检索内容网页的方法的一个实施例的流程图。图4是图3的方法中使用的解析内容网页的方法的一个实施例的流程图。图5是示出从公众网站生成内容元数据的装置的一个实施例的框图。图6是适于实现本专利技术的操作环境的一个实施例的图。图7是适于在图2~4的操作环境中使用的计算机系统的一个实施例的图。具体实施例方式在下面对本专利技术的实施例的详细说明中,参考了附图,在附图中,相似的附图标记表示相似的元件,附图示出了可以实现本专利技术的具体实施例。充分详细地说明了这些实施例,从而使得本领域的技术人员可以实现本专利技术,应该理解可以使用其它实施例,可以进行逻辑、机构、电气、功能和其它改变而不离开本专利技术的范围。因此,下面的详细说明不视作限制,本专利技术的范围只由所附权利要求书限定。图1A是使例如内容的、可以由类别数据11表征的信息可以被自动推荐或选择的数据系统10的图。类别数据也称为类别数据集,其描述多个属性或类别。每个类别包括类别名称和关系数据,其中,关系数据定义类别和一条或多条具体内容之间的关系。词“语言项(term)”这里指类别名称。在一个实施例中,类别数据具有基于语言项和语言项关系的数量的维。类别数据中的语言项和/或语言项关系越多,类别数据的维度越大。相反地,减少语言项和/或语言项关系的数量,类别数据的维度则更小。此外,类别数据可以是稀疏的,这意味着类别数据具有大的维度。在一个实施例中,因为类别是离散的且在类别间缺乏自然的相似度,所以类别数据稀疏。类别数据的例子包括电子节目指南(EPG,electronic program guide)数据以及内容元数据。数据系统10包括预处理并加载来自数据库输入8A~N的类别数据11的输入处理模块9。在一个实施例中,数据库输入8A~N可以是例如WIKIPEDIA等的一些公众源中的一个。将类别数据11聚成簇,并/或通过聚类/分类模块12分类为文件夹。下面详细说明由模块12执行的聚类和分类。聚类/分类模块12的输出是例如簇树或系统树的组织数据结构13。簇树可以用作类别数据的索引组织或用来选择数据的合适簇。很多聚类应用需要识别最佳描述类别数据中的模式的潜在分布(underlying distribution)的簇树中的特定层。在一个实施例中,组织数据结构13包括包含含有最优数量的簇的唯一簇组的最优层。数据分析模块14可以使用基于文件夹的分类器和/或由聚类操作产生的分类器来自动推荐或选择内容。数据分析模块14可以自动推荐或提供用户可能感兴趣的或可能相似于用户选择的相关内容的内容。在一个实施例中,用户识别对特定内容语言项进行分类的类别数据记录的多个文件夹,且数据分析模块14基于相似性用适当文件夹对新内容语言项分配类别数据记录。同样在图1A中示出的用户接口15用于辅助用户使用数据系统10搜索并自动组织内容。该内容可能是例如所记录的电视节目、电子节目指南(EGP)条目以及多媒体内容。聚类是根据类别数据间的某些相似度将类别数据组织为多个簇的处理。模块12通过使用一个或多个聚类处理将类别数据聚类,该聚类处理包括基于种子的分层聚类、常阶(order-invariant)聚类以及子空间限制递归聚类。在一个实施例中,聚类/分类模块12以与接收到类别数据的顺序独立的方式合并各簇。在第一实施例中,由用户生成的文件夹组可以作为分类器,使得将新的类别数据记录与用户生成的文件夹组相比并将新的类别数据记录自动分拣到最合适的文件夹。在另一个实本文档来自技高网
...

【技术保护点】
一种计算机化方法,其包括:从公众网站接收网页,所述网页与特定内容有关;从所述网页提取多个语言项;将所述多个语言项添加到与所述内容有关的内容元数据;从所述内容元数据提取指定类别数据;将所述指定类别数据加 载到类别数据集;以及基于所述类别数据集和关系数据减少所述类别数据集的维度,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。

【技术特征摘要】
US 2006-5-16 11/436,0111.一种计算机化方法,其包括从公众网站接收网页,所述网页与特定内容有关;从所述网页提取多个语言项;将所述多个语言项添加到与所述内容有关的内容元数据;从所述内容元数据提取指定类别数据;将所述指定类别数据加载到类别数据集;以及基于所述类别数据集和关系数据减少所述类别数据集的维度,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。2.根据权利要求1所述的计算机化方法,其特征在于,所述提取多个语言项还包括如下处理至少之一将所述网页中的语言项词干化、从所述网页去除停止语言项、以及从所述网页提取有限数量的语言项。3.根据权利要求1所述的计算机化方法,其特征在于,所述提取多个语言项还包括关于网页格式定义解析程序动作。4.根据权利要求1所述的计算机化方法,其特征在于,所述元数据是类别数据。5.一种机器可读介质,其包括从公众网站接收网页,所述网页与特定内容有关;从所述网页提取多个语言项;将所述多个语言项添加到与所述内容有关的内容元数据;从所述内容元数据提取指定类别数据;将所述指定类别数据加载到类别数据集;以及基于所述类别数据集和关系数据减少所述类别数据集的维度,其中,所述关系数据定义所述类别数据集和与所述类别数据集有关的所述内容之间的关系。6.根据权利要求5所述的机器可读介质,其特征在于,所述提取多个语言项还包括如下处理至少之一将所述网页中的语言项词干化、从所述网页去除停止语言项、以及从所述网页提取有限数量的语言项。7.根据权利要求5所述的机器可读介质,其特征在于,所述提取多个语言项还包括关于网页格式定义解析程序动作。8.根据权利要求5所述的机器可读介质,其特征在于,所述元数据是类别数据。9.一种设备,其包括用于...

【专利技术属性】
技术研发人员:赫姆达特波昂ME普卢托夫斯基
申请(专利权)人:索尼株式会社索尼电子有限公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1