当前位置: 首页 > 专利查询>丰小月专利>正文

基于锚标签和时间标记的计算机会议实时信息抽取方法技术

技术编号:13505300 阅读:112 留言:0更新日期:2016-08-10 12:11
本发明专利技术涉及一种网页信息抽取方法,特别是一种基于锚标签和时间标记相结合的计算机会议实时信息抽取方法。本发明专利技术将CCF推荐的A类会议的所有官网链接作为爬虫的种子链接,爬取相关链接和抽取会议的关键信息。不同的会议网站公布会议召开时间等信息的方式不同(特指编写HTML代码的标记不同),但是本发明专利技术能够通过锚标记和时间标记相结合的方法,将不同会议网站发布的会议信息统一提取出来,对每个会议页面中最感兴趣的部分信息进行抽取,例如会议召开时间、地点、相关页面链接等用户感兴趣的信息。

【技术实现步骤摘要】

本专利技术涉及一种网页信息抽取方法,特别是一种计算机会议实时信息的抽取方法。
技术介绍
随着网络海量信息的爆炸式增长, 通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。面对这些挑战, 适应特定主题和个性化搜索的主题网络爬虫应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点。 主题网络爬虫则是指尽可能快地爬行、采集尽可能多的与预先定义好的主题相关的网页。主题网络爬虫可以通过对整个Web按主题分块采集, 并将不同块的采集结果整合到一起, 以提高整个Web的采集覆盖率和页面利用率。详细信息请参考:刘金红,陆余良. 主题网络爬虫研究综述[J]. 计算机应用研究,2007,10:26-29+47。 本专利技术是属于主题网络爬虫中的一种爬取方法,采用锚标签和时间格式相结合的方法对会议(CCF推荐的A类会议)网页中的相关链接和关键信息进行抽取。将获取的信息进行过滤整合,得到每个会议的详细信息。 文章:郝以珍. 基于页面分析的网络爬虫系统的设计与实现[D].华中科技大学,2012.利用了基于HTML标签对网页页面信息的提取方法,但是该文章提取的是页面所有信息,并没有对页面中感兴趣的部分信息进行抽取。本专利技术不仅对页面所有信息进行获取,并且根据锚标签结合时间标记将会议页面链接进行提取,再根据时间标记对每个会议页面中最感兴趣的部分信息进行抽取,例如会议召开时间、地点、相关页面链接等用户想要的信息。而其他信息全部过滤掉,这样获取的信息更有价值。其他相关参考文献:[1] 周立柱,林玲. 聚焦爬虫技术研究综述[J]. 计算机应用,2005,09:1965-1969。[2] 徐远超,刘江华,刘丽珍,关永. 基于Web的网络爬虫的设计与实现[J]. 微计算机信息,2007,21:119-121。[3] 朴星海. 面向主题的网络爬行器相关技术研究[D].哈尔滨工业大学,2007。[4] 李勇,韩亮. 主题搜索引擎中网络爬虫的搜索策略研究[J]. 计算机工程与科学,2008,03:4-6+56。[5] 朱金涛. 基于超链接搜索策略网络爬行器的设计与实现[D].吉林大学,2007。
技术实现思路
本专利技术将CCF推荐的A类会议的所有官网链接作为爬虫的种子链接,爬取相关链接和抽取会议的关键信息。不同的会议网站公布会议召开时间等信息的方式不同(特指编写HTML代码的标记不同),但是本专利技术能够通过锚标记和时间标记相结合的方法,将不同会议网站发布的会议信息统一提取出来,进行资源整合。一、页面链接的提取对于一个特定的会议链接,获取待链接页面的HTML源码。对于页面中的源码,通过<a></a>锚标签和时间标记(如2014)相结合将页面中的链接进行提取,然后进行过滤、标准化等操作,将符合条件的链接保存起来。二、页面关键信息的抽取对于符合条件的所有链接,一一访问,获取页面的HTML源码。通过基于时间标记方法结合HTML标签,对每个页面的信息进行抽取,通常来说,会议类的关键信息会包含时间信息,故只抽取出有特定时间(如2014)的信息,作为关键信息,整理后作为该页面对应的会议的会议信息,存入数据库供查询。本专利技术虽然是针对CCF推荐的A类会议,但是本专利技术具有通用性,对于所有会议(不仅限于CCF推荐的A类会议)信息的抽取,都可以使用本专利技术。附图说明:图1为该平台的开始界面图图2为该平台的搜索结果界面,以Ubicom会议为例图3为基于锚标记结合时间标记的链接抽取流程图图4为基于时间标记结合HTML标签对页面关键信息抽取的流程图具体实施方式:整个系统分为:链接爬取模块、搜索策略模块、页面信息提取模块和信息管理模块。基于锚标签和时间标记相结合的计算机会议实时信息抽取方法只用在了链接爬取模块、页面信息提取模块。为了将本专利技术阐述清楚,下面会将四个模块都进行说明。在链接爬取模块中,基于锚标记<a></a>结合时间标记方法。先通过锚标记<a>将一个页面中的所有链接进行提取,再通过时间标记对每个链接周围信息进行分析,过滤掉不含有时间的链接,再将链接中含有javascript:、mailto:、#开头、?以及空白链接、非HTTP协议链接进行删除,为了得到能够正常访问的链接,还需要将链接进行标准化,即将链接中存在/、./、../、../../的相对地址转换成相对应的绝对地址,。 在搜索策略模块中,采取一定的策略将链接提取模块提取出的URL进行爬取,获得这些URL页面上的链接。本文使用宽度优先策略,使用队列来实现算法。宽度优先搜索算法:种子URL进入队列link_queue;当前项i = 0;深度depth = 0;While(未达到深度){count = link_queue项数;for(;i < count;i++){//出队If(HashSet中不存在link_queue[i]){//此时的HashSet保存已访问链接link_queue[i]加到HashSet中;访问链接link_queue[i];提取link_queue[i]中的链接;将提取到的链接加入到队列link_queue中;本文档来自技高网
...

【技术保护点】
使用时间标记和锚标记的方式进行页面链接和关键信息的提取。

【技术特征摘要】
1.使用时间标记和锚标记的方式进行页面链接和关键信息的提取。2.进入界面,在CCF推荐的十个领域A类会议中点击会议的简称...

【专利技术属性】
技术研发人员:丰小月王冬晖管仁初梁艳春
申请(专利权)人:丰小月
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1