一种网页标签的分组方法和装置制造方法及图纸

技术编号:15329605 阅读:60 留言:0更新日期:2017-05-16 13:14
本发明专利技术实施例公开了一种网页标签的分组方法和装置,提取浏览器标签栏中多个网页标签的标题;计算提取到的多个标题之间的语义距离;根据多个标题之间的语义距离,对多个标题对应的网页标签进行聚类;通过聚类得到至少一个标签组,一个标签组包括至少一个网页标签;将至少一个标签组依次排列在所述标签栏中,其中,属于一个标签组的网页标签连续的排列在所述标签栏中。分组后,在标签栏中依然是以网页标签的形式进行展示,只需要一次点选就可点选到所需网页标签,且属于一个标签组的网页标签在所述标签栏中连续排列在一起,使得所述标签栏中的网页标签处于有序的排列状态,用户可以较快的在所述标签栏中寻找到所需的网页标签,提高了用户的体验度。

Grouping method and device for web page label

The embodiment of the invention discloses a method and a device for grouping cases of a \label, extracting multiple web browser tabs tab title; the semantic distance between a plurality of calculation to extract the title; according to the semantic distance between a plurality of titles, the cluster corresponding to a plurality of titles of\ get at least one label; tag group by clustering, a tag group includes at least one web label; at least one tag group are arranged on the tab bar, and belongs to a group of \continuous label label are arranged in the label column. After grouping the label column in the form of \tag to display is still only a single click to click to the desired page label, and belong to a tag group\ label in the label column continuously arranged together, so that the tab \label is arranged ordered state, the user can quickly on the tab for the page label, enhance the user experience.

【技术实现步骤摘要】
一种网页标签的分组方法和装置
本专利技术涉及数据处理领域,特别是涉及一种网页标签的分组方法和装置。
技术介绍
使用浏览器浏览网页时,打开的网页会以网页标签的形式一个个排列在浏览器的标签栏中,打开的网页越多,标签栏中排列的网页标签就越多。在标签栏中一般是以网页标签生成的时间顺序排列网页标签,新打开网页的网页标签排列在当前展示网页的网页标签之后。当用户使用浏览器打开网页较多时,浏览器标签栏中的大量网页标签会显得比较无序。若用户想要寻找之前打开的某个网页,需要花费一定时间在标签栏中的大量网页标签中找到该网页对应的网页标签,降低了用户体验。传统的解决方案是对网页标签进行分组,用户可以预先建立一个或多个组,通过给组取名来区分不同的组,例如“工作”、“购物”等。针对一个组,设定若干特定的统一资源定位符(英文:UniformResourceLocator,缩写:URL),当生成网页标签时,提取该网页标签的URL并与为组设定的特定URL进行匹配,若匹配成功,则将该网页标签自动归入匹配成功的组中,例如,为“购物”组设定的特定URL为:www.taobao.com,标签栏中的网页标签的URL中若包括www.taobao.com,则会被归入该“购物”组中。分组后的浏览器标签栏中仅具有组标签和未分到组中的网页标签。传统网页分组方式的问题在于,分组后,用户若需要打开已被归入组中的网页标签所对应的网页,首先需要思考该网页标签可能处于的组,明确了组以后,还至少需要二次点选才能点选到该网页标签,第一次是点选该网页标签所处的组标签,由此获得处于该组中的网页标签的展示界面,第二次是在该展示界面中点选所需的网页标签。多次点选的操作过程过于繁琐,依然会导致用户体验低。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种网页标签的分组方法和装置,以使得属于一个标签组的网页标签在所述标签栏中连续排列在一起,用户只需一次点选便可点选到所需的网页标签,提高了用户体验度。本专利技术实施例公开了如下技术方案:一种网页标签的分组方法,所述方法包括:提取浏览器标签栏中多个网页标签的标题;计算提取到的多个标题之间的语义距离;根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到至少一个标签组,一个标签组包括至少一个网页标签;将所述至少一个标签组依次排列在所述标签栏中,其中,属于一个标签组的网页标签连续的排列在所述标签栏中。可选的,所述根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类,包括:从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到的所述至少一个标签组的数量与所述至少一个目标标题的数量相同,其中,一个标签组是根据一个目标标题通过所述聚类得到的。可选的,所述计算提取到的多个标题之间的语义距离,包括:对所述多个标题进行分词,其中,一个标题通过分词得到一个分词集合;计算得到的多个分词集合之间分词与分词的语义子距离;根据语义子距离得到所述多个标题之间的语义距离。可选的,所述将至少一个标签组依次排列在所述标签栏中之后,还包括:若所述标签栏中出现新网页标签,提取所述新网页标签的标题;判断所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离是否满足预设阈值,若所述新网页标签的标题只与一个标签组中标题之间的语义距离满足所述预设阈值,将所述新网页标签加入这个标签组中,并将所述新网页标签与这个标签组的网页标签连续的排列在所述标签栏中;若所述新网页标签的标题与多个标签组中标题之间的语义距离满足所述预设阈值,将所述新网页标签加入最小标签组,并将所述新网页标签与所述最小标签组的网页标签连续的排列在所述标签栏中,所述最小标签组为所述新网页标签的标题与多个标签组中标题之间的语义距离最小的标签组。可选的,若采用从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离,包括:所述新网页标签的标题与所述至少一个标签组的目标标题之间的语义距离。可选的,所述将至少一个标签组依次排列在所述标签栏中之后,还包括:记录所述多个网页标签作为点选标签的情况,所述浏览器所展示网页对应的网页标签为所述点选标签;若作为所述点选标签的网页标签在第一网页标签和第二网页标签之间连续切换的切换次数满足预设次数,判定所述第一网页标签和第二网页标签之间的行为相似度满足预设相似度;通过移动网页标签,将所述第一网页标签和第二网页标签相邻的排列在所述标签栏中。可选的,若采用从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;所述通过移动网页标签,将所述第一网页标签和第二网页标签相邻的排列在所述标签栏中,包括:若所述第一网页标签与所在标签组的中心标签的语义相似度大于所述第二网页标签与所在标签组的中心标签的语义相似度,将所述第二网页标签移动到所述第一网页标签在所述标签栏中的相邻位置,所述中心标签为标签组中目标标题所对应的网页标签,所述语义相似度通过语义距离计算得到。一种网页标签的分组装置,所述装置包括:提取单元,用于提取浏览器标签栏中多个网页标签的标题;计算单元,用于计算提取到的多个标题之间的语义距离;聚类单元,用于根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类;分组单元,用于通过聚类得到至少一个标签组,一个标签组包括至少一个网页标签;排列单元,用于将所述至少一个标签组依次排列在所述标签栏中,其中,属于一个标签组的网页标签连续的排列在所述标签栏中。可选的,所述聚类单元具体用于从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到的所述至少一个标签组的数量与所述至少一个目标标题的数量相同,其中,一个标签组是根据一个目标标题通过所述聚类得到的。可选的,所述计算单元具体用于对所述多个标题进行分词,其中,一个标题通过分词得到一个分词集合;计算得到的多个分词集合之间分词与分词的语义子距离;根据语义子距离得到所述多个标题之间的语义距离。可选的,还包括:所述提取单元还用于在触发所述排列单元之后,若所述标签栏中出现新网页标签,提取所述新网页标签的标题;判断单元,用于判断所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离是否满足预设阈值,若所述判断单元的判断结果为所述新网页标签的标题只与一个标签组中标题之间的语义距离满足所述预设阈值,触发第一加入单元;若所述判断单元的判断结果为所述新网页标签的标题与多个标签组中标题之间的语义距离满足所述预设阈值,触发第二加入单元;所述第一加入单元,用于将所述新网页标签加入这个标签组中,并将所述新网页标签与这个标签组的网页标签连续的排列在所述标签栏中;所述第二加入单元,用于将所述新网页标签加入最小标签组,并将所述新网页标签与所述最小标签组的网页标签连续的排列在所述标签栏中,所述最小标签组为所述新网页标签的标题与多个标签组中标题之间的语义距离本文档来自技高网
...
一种网页标签的分组方法和装置

【技术保护点】
一种网页标签的分组方法,其特征在于,所述方法包括:提取浏览器标签栏中多个网页标签的标题;计算提取到的多个标题之间的语义距离;根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到至少一个标签组,一个标签组包括至少一个网页标签;将所述至少一个标签组依次排列在所述标签栏中,其中,属于一个标签组的网页标签连续的排列在所述标签栏中。

【技术特征摘要】
1.一种网页标签的分组方法,其特征在于,所述方法包括:提取浏览器标签栏中多个网页标签的标题;计算提取到的多个标题之间的语义距离;根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到至少一个标签组,一个标签组包括至少一个网页标签;将所述至少一个标签组依次排列在所述标签栏中,其中,属于一个标签组的网页标签连续的排列在所述标签栏中。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个标题之间的语义距离,对所述多个标题对应的网页标签进行聚类,包括:从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;通过聚类得到的所述至少一个标签组的数量与所述至少一个目标标题的数量相同,其中,一个标签组是根据一个目标标题通过所述聚类得到的。3.根据权利要求1所述的方法,其特征在于,所述计算提取到的多个标题之间的语义距离,包括:对所述多个标题进行分词,其中,一个标题通过分词得到一个分词集合;计算得到的多个分词集合之间分词与分词的语义子距离;根据语义子距离得到所述多个标题之间的语义距离。4.根据权利要求1至3任一项所述的方法,其特征在于,所述将至少一个标签组依次排列在所述标签栏中之后,还包括:若所述标签栏中出现新网页标签,提取所述新网页标签的标题;判断所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离是否满足预设阈值,若所述新网页标签的标题只与一个标签组中标题之间的语义距离满足所述预设阈值,将所述新网页标签加入这个标签组中,并将所述新网页标签与这个标签组的网页标签连续的排列在所述标签栏中;若所述新网页标签的标题与多个标签组中标题之间的语义距离满足所述预设阈值,将所述新网页标签加入最小标签组,并将所述新网页标签与所述最小标签组的网页标签连续的排列在所述标签栏中,所述最小标签组为所述新网页标签的标题与多个标签组中标题之间的语义距离最小的标签组。5.根据权利要求4所述的方法,其特征在于,若采用从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;所述新网页标签的标题与所述至少一个标签组中标题之间的语义距离,包括:所述新网页标签的标题与所述至少一个标签组的目标标题之间的语义距离。6.根据权利要求1至3任一项所述的方法,其特征在于,所述将至少一个标签组依次排列在所述标签栏中之后,还包括:记录所述多个网页标签作为点选标签的情况,所述浏览器所展示网页对应的网页标签为所述点选标签;若作为所述点选标签的网页标签在第一网页标签和第二网页标签之间连续切换的切换次数满足预设次数,判定所述第一网页标签和第二网页标签之间的行为相似度满足预设相似度;通过移动网页标签,将所述第一网页标签和第二网页标签相邻的排列在所述标签栏中。7.根据权利要求6所述的方法,其特征在于,若采用从所述多个标题中选取至少一个目标标题,根据所述多个标题中的非目标标题到目标标题的语义距离,对所述多个标题对应的网页标签进行聚类;所述通过移动网页标签,将所述第一网页标签和第二网页标签相邻的排列在所述标签栏中,包括:若所述第一网页标签与所在标签组的中心标签的语义相似度大于所述第二网页标签与所在标签组的中心标签的语义相似度,将所述第二网页标签移动到所述第一网页标签在所述标签栏中的相邻位置,所述中心标签为标签组中目标标题所对应的网页标签,所述语义相似度通过语义距离计算得到。8.一种网页标签的分组装置,其特征在于...

【专利技术属性】
技术研发人员:胡于响
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1