对网站中的内容按语义排列等级制造技术

技术编号:8349551 阅读:176 留言:0更新日期:2013-02-21 07:34
使用计算机化排列等级装置(105)对网站(110)中的内容按语义排列等级包括:使用计算机化排列等级装置(105)将来自网站(110)的内容解析成多个自治的内容块(415-1到415-17),以及使用所述计算机化排列等级装置(105),基于内容块(415-1到415-17)的主旨与多个预定义类别之一相关的程度,向所述内容块(415-1到415-17)中的每一个分配重要性等级。

【技术实现步骤摘要】
【国外来华专利技术】对网站中的内容按语义排列等级
技术介绍
常常出现这样的情况组织将维持在互联网上的存在,以为客户、商业伙伴和其他信息搜索者提供关于该组织的廉价且易得的信息。当前,实现这种类型的互联网存在的最常见方法是通过网站。因为几乎所有人都可以通过这种或那种方式访问互联网,所以网站在向那些搜索关于该组织的信息的人们暴露该组织方面可能是非常有效的。由组织维持的网站可以是各种内容的储存库。因此,在一些情况下在其他类型的媒体(诸如印刷的营销媒体)中重新使用为网站开发的内容可能是实用的。尽管如此,在创建这些其他类型的媒体时,并非网站上的所有内容都具有相等价值。例如,在用于组织的印刷的营销小册子中,网站上的那个组织的联系信息可能比网站上的涉及在线申请职位的内容更有用。结果,筛选网站的内容以确定哪个内容最适合在特定的应用中重新使用可能是耗时的过程。 附图说明了这里描述的原理的各种实施例,并且附图是说明书的一部分。说明的实施例仅仅为示例并且不限制权利要求的范围。图I是根据这里所描述的原理的一个示范性实施例的用于按语义对网站中的内容排列等级的说明性系统的框图。图2是根据这里所描述的原理的一个示范性实施例的由说明性计算机化的网站内容排列等级实现的功能块的框图。图3是根据这里所描述的原理的一个示范性实施例的被设计用于重新使用从网站提取的按语义排列等级的内容的媒体文章(articIe )的说明性模板的图。图4是根据这里所描述的原理的一个示范性实施例的表示说明性网站的分级结构的树形图。图5是根据这里所描述的原理的一个示范性实施例的结合了从网站提取的内容的说明性目标媒体文章的图。图6是根据这里所描述的原理的一个示范性实施例的对结合了从网站提取的按语义排列等级的内容的媒体文章进行创建的说明性方法的流程图。图7是根据这里所描述的原理的一个示范性实施例的通过说明性计算机化的网站内容排列等级装置实现的功能块的框图。图8是根据这里所描述的原理的一个示范性实施例的说明性内容等级列表的图。图9是根据这里所描述的原理的一个示范性实施例的结合了从网站提取的内容的说明性营销小册子的图。图10是根据这里所描述的原理的一个示范性实施例的对结合了从网站提取的按语义排列等级的内容的媒体文章进行创建的说明性方法的流程图。在所有附图中,相同的附图标记表示类似但未必相同的元件。具体实施例方式如上所述,在一些情况下,从网站提取内容以在另一种类型的媒体中重新使用可能是节省成本的。然而,网站上可用的所有内容可能不具有相等价值,或者甚至与目标媒体文章的创建相关。特别是在大的网站的情况下,筛选整个网站来手动地提取相关的内容以在目标媒体文章中重新使用可能是耗时并且繁重的。于是,可能期望的是提供一种对网站内容自动按语义排列等级以在创建目标媒体文章中使用的方法。鉴于这些考虑,本说明书公开了用于对网站中的内容按语义排列等级的各种方法、系统和装置。对网站内容按语义排列等级的过程包括将来自网站的内容解析成多个自治的内容块,基于内容块的主旨(substance)将每个内容块分配到预定义的类别,以·及根据与其分配的预定义的类别相关联的重要性的程度对每个内容块排列等级。在某些实施例中,然后可以根据等级将内容块自动组装成目标媒体文章。这里描述的原理有利地实现了基于可改变的一组语义根据其重要性自动组织来自网站的内容,从而消除在整个网站中手动地搜寻适于在期望的应用中重新使用的内容的需求。通过这样做,这里描述的系统、方法和装置简化了为新应用重新使用网站内容的过程,使得网站的所有者可以提高该内容的价值。尽管主要关于其中基于从网站提取的信息使用按语义排列等级的内容来自动生成文档的实施例描述了在本说明书中阐述的原理,但是应当理解的是,这些原理不限于这样的实施例。相反,预期的是,也可以将这里描述的新原理应用于其中可以利用按语义排列等级的网站内容的任何其他的应用。如在本说明书中和在所附权利要求书中所使用的,术语“网站”是指网页或共享共同的统一资源定位符(URL)域的网页集合。如在本说明书中和在所附权利要求书中所使用的,术语“网页”是指可以通过网络连接从服务器检索并在web浏览器应用中观看的文档。在以下的描述中,为了解释的目的,大量特定的细节被阐述以便提供对本系统和方法的透彻理解。然而,对于本领域的技术人员而言将显而易见的是,本系统和方法可以在没有这些特定细节的情况下实现。在说明书中对“实施例”、“示例”或类似语言的引用意味着在至少那一个实施例中,但未必在其他实施例中,包括结合该实施例或示例来描述的特定特征、结构或特性。短语“在一个实施例中”或类似短语在本说明书中各处的各种实例未必全都指相同的实施例。现在将关于用于按语义对网站中的内容排列等级的说明性系统、装置和方法论述这里公开的原理。现在参考图1,用于按语义对网站中的内容排列等级的说明性系统(100)包括网站内容排列等级装置(105),其可以访问由网站服务器(115)存储的网站(110)。在本示例中,网站内容排列等级装置(105)和网站服务器(115)是通过连接通信地耦合到公共网络(120)的分离的计算装置。然而,在本说明书中阐述的原理同样地扩展到任何替代配置,其中网站内容排列等级装置(105)可以完全访问网站(110)。照此,在本说明书的原理范围内的替代实施例包括,但不限于,其中由同一计算装置实现网站内容排列等级装置(105)和网站服务器(115)的实施例、其中网站内容排列等级装置(105)和网站服务器(115)通过总线直接通信而无需中间的网络装置的实施例、以及其中网站内容排列等级装置(105)可以访问所存储的网站(110 )的本地副本的实施例。本示例的网站内容排列等级装置(105)是被配置成抓取由网站服务器(115)主控的网站(110)并根据一组语义对网站(110)中存在的内容排列等级的计算装置。实际上,网站内容排列等级装置(105)通过使用适当的网络协议(例如,网际协议(“IP”))从网站服务器(115)请求与网站(110)相关联的所有网页来抓取网站(110)。网站内容排列等级装置(105)可以存储并处理从网站服务器(115)返回的网页中的每一个以对网站内容排列等级。在下文中将更详细地阐述按语义对网站内容排列等级的说明性过程。为了实现其期望的功能,网站内容排列等级装置(105)包括各种硬件部件。在这些硬件部件中可以是至少一个处理器单元(125)、至少一个存储器单元(130)、外围装置适配器(135)和网络适配器(140)。可以通过使用一个或多个总线将这些硬件部件互连。处理器单元(125)可以包括从存储器单元(130)检索可执行的代码并执行该可执 行的代码所必需的硬件架构。在由处理单元(125)执行时,可执行的代码可以使处理单元(125)实现抓取网站(110)并按语义对来自网站(110)的内容排列等级的功能。在执行代码的过程中,处理单元(125)可以从一个或多个其余的硬件单元接收输入并向一个或多个其余的硬件单元提供输出。存储器单元(130)可以被配置成以数字方式存储由处理单元(125)消耗和产生的数据。存储器单元(130)可以包括各种类型的存储器模块,包括易失性和非易失性存储器。例如,本示例的存储器单元(130)包括随机存取存储器(RAM)、只读存储器(R本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:SJ刘S林J金Y熊PM乔施N巴蒂JJ刘J范S杨
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1