基于锚标签和时间标记的计算机会议实时信息抽取方法技术

技术编号：13505300 阅读：112 留言：0更新日期：2016-08-10 12:11

本发明专利技术涉及一种网页信息抽取方法，特别是一种基于锚标签和时间标记相结合的计算机会议实时信息抽取方法。本发明专利技术将CCF推荐的A类会议的所有官网链接作为爬虫的种子链接，爬取相关链接和抽取会议的关键信息。不同的会议网站公布会议召开时间等信息的方式不同（特指编写HTML代码的标记不同），但是本发明专利技术能够通过锚标记和时间标记相结合的方法，将不同会议网站发布的会议信息统一提取出来，对每个会议页面中最感兴趣的部分信息进行抽取，例如会议召开时间、地点、相关页面链接等用户感兴趣的信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种网页信息抽取方法，特别是一种计算机会议实时信息的抽取方法。
技术介绍
随着网络海量信息的爆炸式增长, 通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。面对这些挑战, 适应特定主题和个性化搜索的主题网络爬虫应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点。主题网络爬虫则是指尽可能快地爬行、采集尽可能多的与预先定义好的主题相关的网页。主题网络爬虫可以通过对整个Web按主题分块采集, 并将不同块的采集结果整合到一起, 以提高整个Web的采集覆盖率和页面利用率。详细信息请参考：刘金红,陆余良. 主题网络爬虫研究综述[J]. 计算机应用研究,2007,10:26-29+47。本专利技术是属于主题网络爬虫中的一种爬取方法，采用锚标签和时间格式相结合的方法对会议（CCF推荐的A类会议）网页中的相关链接和关键信息进行抽取。将获取的信息进行过滤整合，得到每个会议的详细信息。文章：郝以珍. 基于页面分析的网络爬虫系统的设计与实现[D].华中科技大学,2012.利用了基于HTML标签对网页页面信息的提取方法，但是该文章提取的是页面所有信息，并没有对页面中感兴趣的部分信息进行抽取。本专利技术不仅对页面所有信息进行获取，并且根据锚标签结合时间标记将会议页面链接进行提取，再根据时间标记对每个会议页面中最感兴趣的部分信息进行抽取，例如会议召开时间、地点、相关页面链接等用户想要的信息。而其他信息全部过滤掉，这样获取的信息更有价值。其他相关参考文献：[1] 周立柱,林玲. 聚焦爬虫技...

【技术保护点】
使用时间标记和锚标记的方式进行页面链接和关键信息的提取。

【技术特征摘要】
1.使用时间标记和锚标记的方式进行页面链接和关键信息的提取。2.进入界面，在CCF推荐的十个领域A类会议中点击会议的简称...

【专利技术属性】
技术研发人员：丰小月，王冬晖，管仁初，梁艳春，
申请(专利权)人：丰小月，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人