当前位置: 首页 > 专利查询>浙江大学专利>正文

基于链接聚类的无障碍网页浏览方法技术

技术编号:5172456 阅读:246 留言:0更新日期:2012-04-11 18:40
基于链接聚类的无障碍网页浏览方法,包括:从互联网中抓取网页,获取网页中的链接;抽取各链接对应的URL文本和锚文本内容,同时抓取链接对应的网页的文本信息;获取URL文本、锚文本和对应网页正文中的关键词,以关键词为特征、形式化地将所有网页链接分别表示成由关键词信息组成的链接向量,,其中为链接向量中的第i个关键词的权重信息;利用聚类算法对链接向量进行聚类,将同主题的连接作为一组,以分组的形式重新呈现网页。本发明专利技术的优点是对网页链接进行聚类处理,以使网页中的链接以更紧凑的分组方式呈现;适用于所有类型的网页,无需后台人工操作,可用于帮助盲人实现无障碍网页浏览,也可用于帮助普通用户提高网页浏览质量。

【技术实现步骤摘要】

本专利技术涉及无障碍网页浏览方法的
,特别是基于链接聚类的无障碍网页 浏览方法。
技术介绍
世界上约有盲人3000万人左右,中国约有500万盲人,占世界总数的18%,随着互 联网的高度普及和互联网在日常生活中重要性的不断上升,盲人上网问题将成为无障碍建 设中的重要问题。盲人由于无法通过视力接受信息,所以其上网问题特别突出。而且现在 的网站内容越来越丰富,页面结构复杂,尤其是一些大型互联网企业,如新浪、搜狐等网站 的首页,单个页面中所包含的链接就达到了几百个。面对链接数量如此庞大的网页,为盲人 提供一种无障碍网页浏览方法显得尤为重要。为了方便用户浏览方便,现在很多门户网站都把网页中的链接以主题分类的模式 展现。但是这种分类模式大多依靠网站后台的人工操作,且一般只应用于网站首页或者导 航栏。这使得用户在浏览一般网页时,只能逐个点击链接,查找自己所需的信息。而对于需 要依靠读屏软件等辅助工具来浏览网页的盲人用户来说,逐个点击链接来寻找自己需要的 信息,操作耗时长,网页浏览效率低。
技术实现思路
为了克服现有技术的盲人阅读时搜索信息不方便,网页浏览效率低的缺点,本发 明提供了一种通过帮助用户快速锁定同一网页中的同主题链接,以提高浏览网页的体验度 的。,包括以下步骤1)、从互联网中抓取网页,获取网页中的链接;2)、抽取各链接对应的URL文本和锚文本内容,同时抓取链接对应的网页的文本信息;3)、获取URL文本、锚文本和对应网页正文中的关键词,以关键词为 特征、形式化地将所有网页链接分别表示成由关键词信息组成的链接向量P-P = ^1 ^2 Ji L],其中工为链接向量多中的第i个关键词的权重信息;4)、利用聚类算法对链接向量>进行聚类,将同主题的连接作为一组,以分组的形式 重新呈现网页。进一步,步骤3)中所述的关键词权重信息J由URL特征权重<、锚文本权重< 和网页文本特征权重d组成,本文档来自技高网...

【技术保护点】
基于链接聚类的无障碍网页浏览方法,包括以下步骤:1)、从互联网中抓取网页,获取网页中的链接;2)、抽取各链接对应的URL文本和锚文本内容,同时抓取链接对应的网页的文本信息;3)、获取URL文本、锚文本和对应网页正文中的关键词,以关键词为特征、形式化地将所有网页链接分别表示成由关键词信息组成的链接向量*,***,其中*为链接向量*中的第i个关键词的权重信息;4)、利用聚类算法对链接向量*进行聚类,将同主题的连接作为一组,以分组的形式重新呈现网页。

【技术特征摘要】
基于链接聚类的无障碍网页浏览方法,包括以下步骤1)、从互联网中抓取网页,获取网页中的链接;2)、抽取各链接对应的URL文本和锚文本内容,同时抓取链接对应的网页的文本信息;3)、获取URL文本、锚文本和对应网页正文中的关键词,以关键词为特征、形式化地将所有网页链接分别表示成由关键词信息组成的链接向量,,其中为链接向量中的第i个关键词的权重信息;4)、利用聚类算法对链接向量进行聚类,将同主题的连接作为一组,以分组的形式重新呈现网页。2010105220391100001...

【专利技术属性】
技术研发人员:陈纯王灿卜佳俊何占盈张利军
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1