获取截短的网页标题的方法及装置制造方法及图纸

技术编号:12397867 阅读:55 留言:0更新日期:2015-11-26 03:43
本发明专利技术公开了一种获取截短的网页标题的方法及装置。方法包括:获取网页统一资源定位符信息以及该信息映射的待截短网页标题;对待截短网页标题进行处理,只保留能够反映网页内容的部分;所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题;利用通用规则对标题做截短处理;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页标题前后缀识别库。应用本发明专利技术,可以有效提升网页标题的去冗余效果。

【技术实现步骤摘要】

本专利技术涉及浏览器显示处理技术,具体涉及一种获取截短的网页标题的方法及装 置。
技术介绍
目前,基于浏览器显示界面布局的需要,由于显示用户存储在浏览器收藏栏、收藏 夹中收藏的网页标题的浏览器显示区域相对有限,而通过该浏览器显示区域显示的网页标 题,能够使用户获取到该网页(网站)的相关信息。因而,如何在有限的浏览器显示区域内, 使得存储的网页标题能够向用户提供尽可能多的信息,以使用户获取关于网页的更多有用 信息,从而提升用户的业务体验,成为一个亟需解决的技术问题。其中,网页标题是用于概 括网页内容的一句话,是对网页内容的高度浓缩,可以向用户提供相关网页精炼以及有用 的信息。 在现有浏览器中,对于用户在收藏夹中收藏的网页标题,一般通过浏览器自动 提取网页顶部的标题(Title)作为网页标题,例如,对于需要收藏的网页统一资源定位符 (URL,Uniform Resource Locator)信息:www. sohu. com,浏览器自动将网M www. sohu. com 顶部设置的标题"上搜狐,看奥运"作为该网页www. sohu. com标题,并存储在收藏夹中,当 然,用户也可以根据自身的实际需要,对收藏夹中的网页标题进行手动修改。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上 述问题的获取截短的网页标题的方法及装置。 依据本专利技术的一个方面,提供了获取截短的网页标题的方法,该方法包括: 获取网页统一资源定位符信息以及该网页统一资源定位符信息映射的待截短网 页标题; 对待截短网页标题进行处理,只保留能够反映网页内容的部分; 所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组 合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网 页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行 处理,获取截短的网页标题;利用通用规则对标题做截短处理; 所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页 标题前后缀识别库。 根据本专利技术的另一方面,提供了获取截短的网页标题的装置,包括:截短请求处理 模块以及截短的网页标题获取模块,其中, 截短请求处理模块,用于从接收的进行网页标题截短的请求中获取待截短网页统 一资源定位符信息以及该待截短网页统一资源定位符信息映射的网页标题; 截短的网页标题获取模块,用于查询预先设置的网页标题匹配库,得到待截短网 页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行 处理,获取截短的网页标题;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模 板库、和/或,网页标题前后缀识别库。 根据本专利技术的获取截短的网页标题的方法及装置,根据输入的网页统一资源定位 符信息以及网页标题,利用预先建立的网页白名单库、和/或,网页模版库、和/或,网页标 题前后缀识别库、和/或,截短通用规则,对网页标题进行截短。由此解决了现有方法对网 页标题进行提取后,得到截短的网页标题包含修饰性词语以及前后缀的技术问题,能够有 效地去除网页标题中包含的前后缀以及修饰性词语,获得了良好的去冗余目的,达到获取 的截短的网页标题满足浏览器显示区域要求,并能向用户提供更多有用的信息,从而提升 用户业务体验的有益效果。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段, 而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够 更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了本专利技术实施例获取截短的网页标题的方法流程示意; 图2示出了本专利技术实施例获取截短的网页标题的装置结构示意;以及 图3示出了本专利技术实施例获取截短的网页标题的方法具体流程示意。【具体实施方式】 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。 随着网络技术的发展,为了向用户提供更为有用的信息以及适应浏览器显示区 域,还需要对收藏夹中存储的网页标题中包含的一些非必要信息进行过滤处理,即对网页 标题进行关键字词提取以截短网页标题,以在有限的浏览器显示区域内向用户提供尽可能 有用的信息。 作为可选实施例,可以通过分词切分方法对获取的网页标题进行拆分,先对网页 标题进行字词切分,接着,对切分的字词进行无意义词去除,最后,对经过去除处理后的网 页标题进行字词组合,得到截短的网页标题。 实际应用中,由于采用分词切分方法对网页标题进行字词切分,并对切分的字词 进行无意义词去除,不能有效去除网页标题中对用户无关的信息。例如,网页标题"上搜狐, 看奥运"经过字词切分、无意义词去除以及字词组合后,得到提取的网页标题仍然为"上搜 狐,看奥运",而对于用户来说,"上"以及"看奥运"可能是对用户无用的信息,使得有限的浏 览器显示区域内向用户提供的有用信息量减少,降低了用户的业务体验;再例如,对于网页 标题"欢迎访问搜狐",经过现有方法对网页标题进行提取后,得到截短的网页标题仍然为 "欢迎访问搜狐",而其中,"欢迎访问"为修饰性词语,不能提供对用户有用的信息,这样,由 于截短的网页标题中包含了一些修饰性词语,一方面,使得截短的网页标题不能满足浏览 器显示区域要求,另一方面,也使得截短的网页标题提供给用户的有用信息较少,网页标题 去冗余效果较差。优选地,本专利技术实施例中提出一种对各网页标题尽可能保留标题有用信 息的一种网页标题截短技术,即获取截短的网页标题的方法,通过建立网页白名单库、和/ 或,网页模版库、和/或,网页标题前后缀识别库、和/或,截短通用规则,对网页标题进行有 用截短,使之包含更为精炼的关键词或关键词组,并去除与用户无关的信息,从而满足浏览 器显示区域要求,并向用户提供更多有用的信息。 图1示出了本专利技术实施例获取截短的网页标题的方法流程示意。参见图1,该流程 包括: 步骤101,获取待截短网页统一资源定位符信息以及该待截短网页统一资源定位 符信息映射的网页标题; 本步骤中,相对于现有仅针对网页标题进行截短的技术,本专利技术实施例中,为了实 现更为有效的网页标题截短以及匹配本专利技术实施例提出的网页白名单库、和/或,网页模 版库、和/或,网页标题前后缀识别库技术,在对网页标题进行获取时,还需要获取并利用 该网页统一资源定位符信息,且作为可选实施例,与现有技术不同的是,本专利技术实施例中, 待截短网页标题可以为空或者url等并非表示页面主题信息的无效标题。 本步骤具体包括: 接收进行网页标题截短的请求; 本步骤中,用户在浏览网页的过程中,如果确定需要将该网页进行收藏,则在该网 页的显示界面,通过点击收藏夹下拉菜单中的添加到本文档来自技高网...

【技术保护点】
一种获取截短的网页标题的方法,包括:获取网页统一资源定位符信息以及该网页统一资源定位符信息映射的待截短网页标题;对待截短网页标题进行处理,只保留能够反映网页内容的部分;所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题;利用通用规则对标题做截短处理;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页标题前后缀识别库。

【技术特征摘要】

【专利技术属性】
技术研发人员:商胜徐俊
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1